We present a High-Resolution Transformer (HRT) that learns high-resolution representations for dense prediction tasks, in contrast to the original Vision Transformer that produces low-resolution representations and has high memory and computational cost. We take advantage of the multi-resolution parallel design introduced in high-resolution convolutional networks (HRNet), along with local-window self-attention that performs self-attention over small non-overlapping image windows, for improving the memory and computation efficiency. In addition, we introduce a convolution into the FFN to exchange information across the disconnected image windows. We demonstrate the effectiveness of the High-Resolution Transformer on both human pose estimation and semantic segmentation tasks, e.g., HRT outperforms Swin transformer by $1.3$ AP on COCO pose estimation with $50\%$ fewer parameters and $30\%$ fewer FLOPs. Code is available at: https://github.com/HRNet/HRFormer.


翻译:我们展示了高分辨率变压器(HRT),该变压器在密集的预测任务中学习高分辨率表示,而原始的视野变压器则产生低分辨率表示,并具有很高的内存和计算成本。我们利用高分辨率变压网络(HRNet)引入的多分辨率平行设计,同时利用对小型非重叠图像窗口进行自我关注的当地窗口自我关注,以提高记忆和计算效率。此外,我们还在FFFFN中引入了一场演进,以在断开的图像窗口之间交流信息。我们展示了高分辨率变压器在人类面貌估计和语义分解任务上的有效性,例如,HRT在COCO上将Swin变压器比AP多1.3美元,其参数少50美元,FLOPs少30美元。代码见:https://github.com/HRNet/HRFormer。

0
下载
关闭预览

相关内容

【CVPR2021】重新思考BiSeNet让语义分割模型速度起飞
专知会员服务
32+阅读 · 2021年5月5日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
专知会员服务
109+阅读 · 2020年3月12日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
Arxiv
1+阅读 · 2021年12月16日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
5+阅读 · 2019年8月22日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员