We present CSWin Transformer, an efficient and effective Transformer-based backbone for general-purpose vision tasks. A challenging issue in Transformer design is that global self-attention is very expensive to compute whereas local self-attention often limits the field of interactions of each token. To address this issue, we develop the Cross-Shaped Window self-attention mechanism for computing self-attention in the horizontal and vertical stripes in parallel that form a cross-shaped window, with each stripe obtained by splitting the input feature into stripes of equal width. We provide a detailed mathematical analysis of the effect of the stripe width and vary the stripe width for different layers of the Transformer network which achieves strong modeling capability while limiting the computation cost. We also introduce Locally-enhanced Positional Encoding (LePE), which handles the local positional information better than existing encoding schemes. LePE naturally supports arbitrary input resolutions, and is thus especially effective and friendly for downstream tasks. Incorporated with these designs and a hierarchical structure, CSWin Transformer demonstrates competitive performance on common vision tasks. Specifically, it achieves 85.4% Top-1 accuracy on ImageNet-1K without any extra training data or label, 53.9 box AP and 46.4 mask AP on the COCO detection task, and 51.7 mIOU on the ADE20K semantic segmentation task, surpassing previous state-of-the-art Swin Transformer backbone by +1.2, +2.0, +1.4, and +2.0 respectively under the similar FLOPs setting. By further pretraining on the larger dataset ImageNet-21K, we achieve 87.5% Top-1 accuracy on ImageNet-1K and state-of-the-art segmentation performance on ADE20K with 55.7 mIoU. The code and models will be available at https://github.com/microsoft/CSWin-Transformer.


翻译:我们为通用愿景任务提供了CSWin 变换器,这是一个高效而有效的UFervant 骨干。在变换器设计中,一个具有挑战性的问题是,全球自省对于计算成本非常昂贵,而本地自省往往限制每个象征的相互作用领域。为了解决这个问题,我们开发了跨共享窗口自我关注机制,用于计算水平和垂直条纹中的自我关注,从而形成一个交叉形状的窗口,通过将输入特征分解成同等宽度的条纹获得每个条纹。我们提供了对条纹宽影响的详细数学分析,并改变了变换器网络不同层的条纹宽度,这些层在限制计算成本的同时实现了强大的建模能力。我们还引入了本地增强的定位信息(LePE),在横向和垂直的平面上,LePE自然支持任意的输入分辨率,从而对下游任务特别有效且友好。由这些设计和等级结构整合,CSBEVinelive变换器进一步展示共同愿景任务中的竞争性性能。 具体地说,在SOE+OVOVI 数据部分上,在SOVI IM IM 上,在SOOOOOI 上,在SODI IM IM IM IM IM IM IM 上,在SL IM IM IM 上,在SID IM IM IM 上,在SD 上,在SD IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM 上,在S IM IM 上,在S IM IM IM IM IM IM IM IM IM IM 上,在S 上,在S 上,在S 上, 上,在S 4 IM 上,在S 上,在S IM IM 4 IM IM IM IM 5,在S 4 4 IM IM IM IM IM IM IM IM IM IM 上, IM IM IM IM IM IM IM IM 上,在 IM

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
霍普金斯《操作系统原理》2020课程,不可错过!
专知会员服务
36+阅读 · 2020年10月27日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
9+阅读 · 2021年5月17日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
9+阅读 · 2021年3月3日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2021年7月30日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
霍普金斯《操作系统原理》2020课程,不可错过!
专知会员服务
36+阅读 · 2020年10月27日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
相关资讯
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员