This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with \textbf{S}hifted \textbf{win}dows. The shifted windowing scheme brings greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection. This hierarchical architecture has the flexibility to model at various scales and has linear computational complexity with respect to image size. These qualities of Swin Transformer make it compatible with a broad range of vision tasks, including image classification (87.3 top-1 accuracy on ImageNet-1K) and dense prediction tasks such as object detection (58.7 box AP and 51.1 mask AP on COCO test-dev) and semantic segmentation (53.5 mIoU on ADE20K val). Its performance surpasses the previous state-of-the-art by a large margin of +2.7 box AP and +2.6 mask AP on COCO, and +3.2 mIoU on ADE20K, demonstrating the potential of Transformer-based models as vision backbones. The hierarchical design and the shifted window approach also prove beneficial for all-MLP architectures. The code and models are publicly available at~\url{https://github.com/microsoft/Swin-Transformer}.


翻译:本文展示了一个新的视觉变换器,称为 Swin 变换器。 变换窗口方案通过将自控计算限制在不重叠的地方窗口, 同时也允许跨窗口连接, 使变换器从语言到视觉的挑战来自两个领域之间的差异, 例如视觉实体规模的大幅变化, 图像像素与文字文字文字中的像素的高度分辨率。 为了解决这些差异, 我们提议了一个等级变换器, 其表达方式以\ textbf{ S}hifted\ textbf{ win}dows 来计算。 变换窗口方案通过将自控计算限制在不重叠的地方窗口中, 同时也允许跨窗口连接。 变换变变转换器的挑战来自两个领域的差异, 比如视觉实体规模的大小和图像像素的高度分辨率。 Swin 变换器的这些特性使得它与广泛的视觉任务相容, 包括图像分类( 图像网络-1 的精度) 和密集的预测任务, 例如天体模型(58.7 框 AP20 和510 高级的 ASloveyal AS- ASloveal ASloveal- del- del- del- ASloveal sural sural.

8
下载
关闭预览

相关内容

ICCV 2021最佳论文出炉!微软Swin Transformer摘得马尔奖
专知会员服务
29+阅读 · 2021年10月13日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
29+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
利用 Universal Transformer,翻译将无往不利!
谷歌开发者
5+阅读 · 2018年9月4日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年10月14日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
0+阅读 · 2021年10月13日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
3+阅读 · 2018年5月11日
VIP会员
相关VIP内容
ICCV 2021最佳论文出炉!微软Swin Transformer摘得马尔奖
专知会员服务
29+阅读 · 2021年10月13日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
29+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
利用 Universal Transformer,翻译将无往不利!
谷歌开发者
5+阅读 · 2018年9月4日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
0+阅读 · 2021年10月14日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
0+阅读 · 2021年10月13日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
3+阅读 · 2018年5月11日
Top
微信扫码咨询专知VIP会员