The past year has witnessed the rapid development of applying the Transformer module to vision problems. While some researchers have demonstrated that Transformer-based models enjoy a favorable ability of fitting data, there are still growing number of evidences showing that these models suffer over-fitting especially when the training data is limited. This paper offers an empirical study by performing step-by-step operations to gradually transit a Transformer-based model to a convolution-based model. The results we obtain during the transition process deliver useful messages for improving visual recognition. Based on these observations, we propose a new architecture named Visformer, which is abbreviated from the `Vision-friendly Transformer'. With the same computational complexity, Visformer outperforms both the Transformer-based and convolution-based models in terms of ImageNet classification accuracy, and the advantage becomes more significant when the model complexity is lower or the training set is smaller. The code is available at https://github.com/danczs/Visformer.


翻译:在过去的一年中,应用变换器模块解决视觉问题的情况迅速发展。一些研究人员已经表明,变换器模型拥有适合的数据的有利能力,但越来越多的证据表明,这些模型特别在培训数据有限的情况下受到过度的适应。本文提供了一项经验性研究,通过逐步操作将一个变换器模型逐步转换到一个以革命为基础的模型。我们在转型过程中获得的结果为改进视觉识别提供了有用的信息。根据这些观察,我们提出了一个新的结构,名为“变换器”,该结构从“对视觉友好型变换器”中缩略下来。用同样的计算复杂性,变换器在图像网络分类精度方面优于“变换器”和“变换器”两种模型,当模型复杂程度较低或培训范围较小时,其优势就更为显著。该代码可在 https://github.com/danczs/Visforew查阅 。

1
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
87+阅读 · 2021年6月17日
专知会员服务
59+阅读 · 2021年2月16日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
102+阅读 · 2020年7月22日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
如何在2019年变成NLP专家
专知
7+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
BEiT: BERT Pre-Training of Image Transformers
Arxiv
2+阅读 · 2021年6月15日
Arxiv
1+阅读 · 2021年6月15日
Arxiv
1+阅读 · 2021年6月11日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
1+阅读 · 2021年5月28日
Arxiv
19+阅读 · 2021年4月8日
VIP会员
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
如何在2019年变成NLP专家
专知
7+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
相关论文
BEiT: BERT Pre-Training of Image Transformers
Arxiv
2+阅读 · 2021年6月15日
Arxiv
1+阅读 · 2021年6月15日
Arxiv
1+阅读 · 2021年6月11日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
1+阅读 · 2021年5月28日
Arxiv
19+阅读 · 2021年4月8日
Top
微信扫码咨询专知VIP会员