Although hierarchical structures are popular in recent vision transformers, they require sophisticated designs and massive datasets to work well. In this work, we explore the idea of nesting basic local transformers on non-overlapping image blocks and aggregating them in a hierarchical manner. We find that the block aggregation function plays a critical role in enabling cross-block non-local information communication. This observation leads us to design a simplified architecture with minor code changes upon the original vision transformer and obtains improved performance compared to existing methods. Our empirical results show that the proposed method NesT converges faster and requires much less training data to achieve good generalization. For example, a NesT with 68M parameters trained on ImageNet for 100/300 epochs achieves $82.3\%/83.8\%$ accuracy evaluated on $224\times 224$ image size, outperforming previous methods with up to $57\%$ parameter reduction. Training a NesT with 6M parameters from scratch on CIFAR10 achieves $96\%$ accuracy using a single GPU, setting a new state of the art for vision transformers. Beyond image classification, we extend the key idea to image generation and show NesT leads to a strong decoder that is 8$\times$ faster than previous transformer based generators. Furthermore, we also propose a novel method for visually interpreting the learned model.


翻译:尽管等级结构在最近的视觉变压器中很受欢迎,但它们需要先进的设计和庞大的数据集才能很好地发挥作用。 在这项工作中,我们探索了将基本的本地变压器嵌入非重叠图像区块,并以等级方式将这些变压器嵌入非重叠图像区块,我们发现区块聚合功能在促成跨区非本地信息通信方面发挥着关键作用。通过这一观察,我们设计了一个简化的架构,对原始视觉变压器略作编码修改,并比现有方法提高了性能。我们的经验结果表明,拟议的NesT方法比现有方法要快得多,需要更快的组合和大量的数据。例如,一个具有68M参数的NesT,在100/300epops的图像网上培训了68M参数,实现了82.3-83.8 $的精确度,在224\time 224美元图像规模上评估了224\time 224$的准确度,比以前的方法减少了57 $的参数减少值。 培训一个具有6M参数的NesT,比CIFAR10的刮得6M参数的精确度达到96 $ 美元。我们的精确度,用一个单一的GPUPUP,为视觉变压器设置的新状态,为新的艺术变压。除了图像分类之外,我们把关键的想法扩大到的变压值扩大到的计算还显示了比新的方法。

1
下载
关闭预览

相关内容

【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
51+阅读 · 2021年2月7日
最新《Transformers模型》教程,64页ppt
专知会员服务
319+阅读 · 2020年11月26日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
注意力图神经网络的多标签文本分类
专知会员服务
112+阅读 · 2020年3月28日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
1+阅读 · 2021年7月16日
Arxiv
0+阅读 · 2021年7月16日
Arxiv
0+阅读 · 2021年7月15日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关VIP内容
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
51+阅读 · 2021年2月7日
最新《Transformers模型》教程,64页ppt
专知会员服务
319+阅读 · 2020年11月26日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
注意力图神经网络的多标签文本分类
专知会员服务
112+阅读 · 2020年3月28日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
1+阅读 · 2021年7月16日
Arxiv
0+阅读 · 2021年7月16日
Arxiv
0+阅读 · 2021年7月15日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
3+阅读 · 2018年11月13日
Top
微信扫码咨询专知VIP会员