NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

本文提出了一种高分辨率Transformer(HRT)，它可以通过学习高分辨率表征来完成密集的预测任务，而原来的Vision Transformer学习的则是低分辨率表征，同时具有很高的内存和计算成本。

作者在高分辨率卷积网络(HRNet)中分别引入的多分辨率并行设计，以及local-window self-attention，在小的非重叠图像窗口上执行self-attention，以提高内存和计算效率。此外，在FFN中引入了卷积操作，以在断开的图像窗口之间交换信息。

作者实验证明了HRT在人体姿态估计和语义分割任务中的有效性，HRT在COCO姿态估计上比Swin Transformer少了50%的参数和30%的FLOPs，精度比Swin Transformer高出1.3%AP。

成为VIP会员查看完整内容

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【AAAI2022】可解释性ViT登场，谷歌AI提出层次嵌套Transformer模型

专知会员服务

29+阅读 · 2022年1月28日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

【NeurIPS 2021】寻找视觉Transformer的搜索空间

专知会员服务

14+阅读 · 2021年12月1日

【NeurIPS2021】SOLQ：基于学习查询的物体分割

专知会员服务

10+阅读 · 2021年11月9日

【NeurIPS2021】利用预训练对比表示征的逆问题

专知会员服务

10+阅读 · 2021年10月17日

【ICML2021】具有性能保证的弱监督下的对抗性多类学习

专知会员服务

17+阅读 · 2021年7月13日

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

【NeurIPS2020】针对弱监督目标检测的综合注意力自蒸馏

专知会员服务

32+阅读 · 2020年11月12日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

ECCV 2020｜全新行人ReID域适应联合学习框架，达到SOTA效果！

AI科技评论

8+阅读 · 2020年8月18日

83.7 mIoU！北大提出：通过解耦的主体和边缘监督改进语义分割 | ECCV 2020

CVer

7+阅读 · 2020年7月23日

增强CNN学习能力的Backbone:CSPNet

CVer

4+阅读 · 2020年4月1日

从三大顶会论文看百变Self-Attention

PaperWeekly

17+阅读 · 2019年11月11日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

大数据文摘

13+阅读 · 2019年4月23日

微软亚研：对深度神经网络中空间注意力机制的经验性研究

机器之心

6+阅读 · 2019年4月15日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

DensePose：将2D图像像素映射到人体3D表面以实现高效姿态估计

论智

7+阅读 · 2018年2月5日

Corrupted Image Modeling for Self-Supervised Visual Pre-Training

Arxiv

0+阅读 · 2022年2月7日

Adaptive BEM for elliptic PDE systems, part II: Isogeometric analysis with hierarchical B-splines for weakly-singular integral equations

Arxiv

0+阅读 · 2022年2月7日

UMPNet: Universal Manipulation Policy Network for Articulated Objects

Arxiv

0+阅读 · 2022年2月5日

Fast Online Video Super-Resolution with Deformable Attention Pyramid

Arxiv

0+阅读 · 2022年2月3日

Image Manipulation Detection by Multi-View Multi-Scale Supervision

Arxiv

13+阅读 · 2021年7月25日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Self-supervised Video Representation Learning by Context and Motion Decoupling

Arxiv

6+阅读 · 2021年4月2日

GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

Arxiv

4+阅读 · 2019年4月25日

RAM: Residual Attention Module for Single Image Super-Resolution

Arxiv

9+阅读 · 2018年11月29日

Spatial-Temporal Memory Networks for Video Object Detection

Arxiv

4+阅读 · 2017年12月18日

VIP会员

相关内容

知识荟萃

更多