We present a High-Resolution Transformer (HRFormer) that learns high-resolution representations for dense prediction tasks, in contrast to the original Vision Transformer that produces low-resolution representations and has high memory and computational cost. We take advantage of the multi-resolution parallel design introduced in high-resolution convolutional networks (HRNet), along with local-window self-attention that performs self-attention over small non-overlapping image windows, for improving the memory and computation efficiency. In addition, we introduce a convolution into the FFN to exchange information across the disconnected image windows. We demonstrate the effectiveness of the High-Resolution Transformer on both human pose estimation and semantic segmentation tasks, e.g., HRFormer outperforms Swin transformer by $1.3$ AP on COCO pose estimation with $50\%$ fewer parameters and $30\%$ fewer FLOPs. Code is available at: https://github.com/HRNet/HRFormer.


翻译:我们推出高分辨率变压器(HRFormer),该变压器在密集的预测任务中学习高清晰度表示,而原先的愿景变压器则产生低清晰度表示,并具有很高的内存和计算成本。我们利用高分辨率变压网络(HRNet)引入的多分辨率平行设计,同时利用对小型非重叠图像窗口进行自控的本地窗口自控,以提高记忆和计算效率。此外,我们还引入了向新生力量的演进,以在断开的图像窗口之间交流信息。我们展示了高分辨率变压器在人类面貌估计和语义分解任务上的有效性,例如,HRFormer公司在COCOCO上以1.3美元取代Swin变压器,其估计值减少50美元,FLOPs则减少30美元。代码见:https://github.com/HRNet/HRFormer。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
图像分类论文与代码大列表
专知
6+阅读 · 2019年2月16日
【泡泡一分钟】一种实用且高效的多视图匹配方法
泡泡机器人SLAM
6+阅读 · 2018年11月19日
已删除
清华大学研究生教育
3+阅读 · 2018年6月30日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
Swin Transformer V2: Scaling Up Capacity and Resolution
Arxiv
9+阅读 · 2021年2月8日
Real-Time High-Resolution Background Matting
Arxiv
4+阅读 · 2020年12月14日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
图像分类论文与代码大列表
专知
6+阅读 · 2019年2月16日
【泡泡一分钟】一种实用且高效的多视图匹配方法
泡泡机器人SLAM
6+阅读 · 2018年11月19日
已删除
清华大学研究生教育
3+阅读 · 2018年6月30日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
相关论文
Swin Transformer V2: Scaling Up Capacity and Resolution
Arxiv
9+阅读 · 2021年2月8日
Real-Time High-Resolution Background Matting
Arxiv
4+阅读 · 2020年12月14日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员