Recently, Transformers have shown promising performance in various vision tasks. To reduce the quadratic computation complexity caused by the global self-attention, various methods constrain the range of attention within a local region to improve its efficiency. Consequently, their receptive fields in a single attention layer are not large enough, resulting in insufficient context modeling. To address this issue, we propose a Pale-Shaped self-Attention (PS-Attention), which performs self-attention within a pale-shaped region. Compared to the global self-attention, PS-Attention can reduce the computation and memory costs significantly. Meanwhile, it can capture richer contextual information under the similar computation complexity with previous local self-attention mechanisms. Based on the PS-Attention, we develop a general Vision Transformer backbone with a hierarchical architecture, named Pale Transformer, which achieves 83.4%, 84.3%, and 84.9% Top-1 accuracy with the model size of 22M, 48M, and 85M respectively for 224 ImageNet-1K classification, outperforming the previous Vision Transformer backbones. For downstream tasks, our Pale Transformer backbone performs better than the recent state-of-the-art CSWin Transformer by a large margin on ADE20K semantic segmentation and COCO object detection & instance segmentation. The code will be released on https://github.com/BR-IDL/PaddleViT.


翻译:最近,转型者在各种愿景任务中表现出了有希望的绩效。为了减少全球自我关注造成的二次计算复杂性,各种方法限制了本地区域内部的注意力范围,以提高其效率。因此,在单一关注层中,它们容纳的字段不够大,导致环境模型不完善。为了解决这一问题,我们提议采用“Pale-Shaped自我保护”(PS-Atention),在浅色区域进行自我关注。与全球自我关注相比,PS-Atention可以大幅降低计算和记忆成本。与此同时,它可以利用先前的本地自我关注机制,在类似的计算复杂性下获取更丰富的背景信息。基于PS-Atention,我们开发了一个通用的视野变异器主干,名为Pale-Shape-Shape-Shanederformation(Pale-Shape-Shape-Shape-Shailationer),其模型规模分别为22M、48M和85MMeg-Megration Net-K分类,这比先前的视野变异器-CO-CO-ADLVER-SDLServard Syal seal seal laction-destreval laction-C-deal lader-de-de-de-deal laction laction laction laction laction lautefal laction lautefer lauteber lautef-C-de lautefal laction later laction later later later laute later later later later laute later later lader later laute later later later later later later la be later later later later later later later later later later later later later later later laut laut laut la la la la la la la la la la la la la la la la la la la la la la la la

0
下载
关闭预览

相关内容

CC在计算复杂性方面表现突出。它的学科处于数学与计算机理论科学的交叉点,具有清晰的数学轮廓和严格的数学格式。官网链接:https://link.springer.com/journal/37
专知会员服务
29+阅读 · 2021年7月30日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
当可变形注意力机制引入Vision Transformer
极市平台
1+阅读 · 2022年1月23日
Pale Transformer:新视觉ViT主干
CVer
0+阅读 · 2022年1月2日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
Transformers在计算机视觉概述
专知
3+阅读 · 2021年4月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
3+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
ResT V2: Simpler, Faster and Stronger
Arxiv
0+阅读 · 2022年4月15日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
相关资讯
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
当可变形注意力机制引入Vision Transformer
极市平台
1+阅读 · 2022年1月23日
Pale Transformer:新视觉ViT主干
CVer
0+阅读 · 2022年1月2日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
Transformers在计算机视觉概述
专知
3+阅读 · 2021年4月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
相关论文
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员