【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加 - 专知

会员服务 ·

0

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

2022 年 4 月 8 日 专知

近期提出的诸多Vision Transformer (ViT) 模型在各种计算机视觉任务中展示了令人鼓舞的结果，这要归功于它们可以通过自注意力对图像块或标记的远程依赖关系进行建模。然而，这些模型通常为每一层内每个标记特征指定相似的感受野。这种做法不可避免地限制了每个自注意力层捕获多尺度特征的能力，从而导致在处理具有不同尺度多对象的图像时性能下降。为了解决这个问题，本文提出了一种新颖的通用策略，称为分流自我注意 (SSA)，它允许 ViT 在每个自注意力层的混合尺度上对感受野进行抽象建模。SSA 的关键思想是将异构感受野的大小注入到Token中，在计算自注意力权重之前选择性地合并Token以得到更大尺度的对象特征，同时保留部分Token细粒度的特征。这种新颖的合并方案使自注意力层能够学习不同尺度大小对象之间的关系，同时减少Token数量和计算成本。各种任务的广泛实验证明了 SSA 的优越性。具体来说，基于 SSA 的 Transformer 实现了 84.0% 的 Top-1 准确率，并在 ImageNet 上以只有一半的模型大

小和计算成本超过了最先进的 Focal Transformer，在 COCO 上超过了local Transformer 1.3 mAP ，在ADE20K 上取得了2.9 mIOU的性能提升。

https://www.zhuanzhi.ai/paper/ab30facc56c74d663d26c07283b044ee

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“STRF” 就可以获取《【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资料

登录查看更多

0

相关内容

Shunted Transformer

Shunted Transformer

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

专知会员服务

25+阅读 · 2022年3月9日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

63+阅读 · 2021年10月14日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

【CVPR2021】动态区域注意卷积

专知会员服务

21+阅读 · 2021年4月2日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVer

0+阅读 · 2022年4月6日

【CVPR2022】EDTER：基于Transformer的边缘检测

【CVPR2022】EDTER：基于Transformer的边缘检测

专知

2+阅读 · 2022年3月18日

CVPR 2022｜MPViT：用于密集预测的多路径视觉Transformer

CVPR 2022｜MPViT：用于密集预测的多路径视觉Transformer

极市平台

0+阅读 · 2022年3月15日

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

专知

2+阅读 · 2022年3月9日

清华提出DAT：具有可变形注意力的视觉Transformer

清华提出DAT：具有可变形注意力的视觉Transformer

CVer

3+阅读 · 2022年1月5日

CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

极市平台

0+阅读 · 2021年8月16日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知

2+阅读 · 2021年4月16日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

基于多特征联合稀疏表示和低秩张量恢复的视觉跟踪研究

国家自然科学基金

1+阅读 · 2014年12月31日

具有3D空间辨识力的视觉显著计算模型研究

国家自然科学基金

2+阅读 · 2014年12月31日

融合多尺度稀疏与稠密特征结构的透视不变图像匹配模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于深度学习的层次化视觉注意模型研究

国家自然科学基金

1+阅读 · 2012年12月31日

高温熔融氟化盐相图的实验测量和理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

铸造缺陷多尺度三维表征及其对铸件服役性能和疲劳寿命的影响研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于不变性知觉的双目视觉注意机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于视觉注意机制的多尺度图像融合的研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月20日

Attention in Attention: Modeling Context Correlation for Efficient Video Classification

Arxiv

0+阅读 · 2022年4月20日

Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations

Arxiv

0+阅读 · 2022年4月20日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Image Captioning In the Transformer Age

Arxiv

1+阅读 · 2022年4月15日

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication

Arxiv

17+阅读 · 2021年6月2日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

VIP会员

相关主题

Shunted Transformer

词元分析器

新加坡国立大学

相关VIP内容

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

专知会员服务

25+阅读 · 2022年3月9日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

63+阅读 · 2021年10月14日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

【CVPR2021】动态区域注意卷积

专知会员服务

21+阅读 · 2021年4月2日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVer

0+阅读 · 2022年4月6日

【CVPR2022】EDTER：基于Transformer的边缘检测

【CVPR2022】EDTER：基于Transformer的边缘检测

专知

2+阅读 · 2022年3月18日

CVPR 2022｜MPViT：用于密集预测的多路径视觉Transformer

CVPR 2022｜MPViT：用于密集预测的多路径视觉Transformer

极市平台

0+阅读 · 2022年3月15日

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

专知

2+阅读 · 2022年3月9日

清华提出DAT：具有可变形注意力的视觉Transformer

清华提出DAT：具有可变形注意力的视觉Transformer

CVer

3+阅读 · 2022年1月5日

CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

极市平台

0+阅读 · 2021年8月16日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知

2+阅读 · 2021年4月16日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

相关基金

基于多特征联合稀疏表示和低秩张量恢复的视觉跟踪研究

国家自然科学基金

1+阅读 · 2014年12月31日

具有3D空间辨识力的视觉显著计算模型研究

国家自然科学基金

2+阅读 · 2014年12月31日

融合多尺度稀疏与稠密特征结构的透视不变图像匹配模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于深度学习的层次化视觉注意模型研究

国家自然科学基金

1+阅读 · 2012年12月31日

高温熔融氟化盐相图的实验测量和理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

铸造缺陷多尺度三维表征及其对铸件服役性能和疲劳寿命的影响研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于不变性知觉的双目视觉注意机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于视觉注意机制的多尺度图像融合的研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月20日

Attention in Attention: Modeling Context Correlation for Efficient Video Classification

Arxiv

0+阅读 · 2022年4月20日

Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations

Arxiv

0+阅读 · 2022年4月20日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Image Captioning In the Transformer Age

Arxiv

1+阅读 · 2022年4月15日

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication

Arxiv

17+阅读 · 2021年6月2日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

大家都在搜

软件无线电

CMU博士论文

无人机集群

久别重逢话双塔

国防科技创新

再见，TD-SCDMA！

微信扫码咨询专知VIP会员