Transformer networks have achieved great progress for computer vision tasks. Transformer-in-Transformer (TNT) architecture utilizes inner transformer and outer transformer to extract both local and global representations. In this work, we present new TNT baselines by introducing two advanced designs: 1) pyramid architecture, and 2) convolutional stem. The new "PyramidTNT" significantly improves the original TNT by establishing hierarchical representations. PyramidTNT achieves better performances than the previous state-of-the-art vision transformers such as Swin Transformer. We hope this new baseline will be helpful to the further research and application of vision transformer. Code will be available at https://github.com/huawei-noah/CV-Backbones/tree/master/tnt_pytorch.


翻译:变异器网络在计算机愿景任务方面取得了巨大进展。 变异器( TNT) 结构利用内变异器和外变异器来提取本地和全球代表。 在这项工作中,我们通过引入两个先进的设计来介绍新的TNT基线:(1) 金字塔结构,和(2) 革命干。 新的“ 金字塔”通过建立等级代表,大大改善了原来的TNT。 金字塔( PyramidTNT)比以前最先进的变异器( 如 Swin变异器) 取得更好的业绩。 我们希望这个新的基线将有助于对变异器的进一步研究和应用。 代码将在 https:// github.com/huawei-noah/CV-Backbones/tree/master/tnt_pytorch。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
314+阅读 · 2020年11月26日
专知会员服务
41+阅读 · 2020年9月6日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
一文细数73个Vision transformer家族成员
极市平台
0+阅读 · 2022年3月17日
Pale Transformer:新视觉ViT主干
CVer
0+阅读 · 2022年1月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
3+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
11+阅读 · 2019年4月15日
VIP会员
相关VIP内容
相关资讯
一文细数73个Vision transformer家族成员
极市平台
0+阅读 · 2022年3月17日
Pale Transformer:新视觉ViT主干
CVer
0+阅读 · 2022年1月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
相关论文
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员