【ICLR2022】Vision Transformer 模型工作机制的最新理论

2022 年 2 月 19 日 专知


在深度神经网络之后,以多头自注意力机制为核心的Vision Transformer因其对输入全局关联的强大建模能力得到了广泛应用和研究。尽管现有研究在模型结构、损失函数、训练机制等方面提出了诸多改进,但少有研究对Vision Transformer的工作机制进行了深入探索。本文为ICLR 2022中的亮点论文之一,提供了不同解释来帮助理解Vision Transformer (ViT)的优良特性:1)多头自注意力机制不仅提高了精度,而且通过使损失的超平面变得平坦,提高了泛化程度;2)多头自注意力机制和卷积模块表现出相反的行为。例如,多头自注意力机制是低通滤波器,而卷积模块是高通滤波器;3)多层的神经网络的行为就像一系列小的个体模型的串联;4)最后阶段的卷积模块在预测中起着关键作用。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“VT22” 就可以获取【ICLR2022】Vision Transformer 模型工作机制的最新理论》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资源
登录查看更多
0

相关内容

【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
144+阅读 · 2021年10月25日
卷积神经网络中的注意力机制综述
专知会员服务
75+阅读 · 2021年10月22日
专知会员服务
29+阅读 · 2021年7月30日
【ICLR2021】常识人工智能,77页ppt
专知会员服务
75+阅读 · 2021年5月11日
专知会员服务
27+阅读 · 2021年5月2日
专知会员服务
56+阅读 · 2021年1月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
103+阅读 · 2020年8月30日
【CVPR2022】EDTER:基于Transformer的边缘检测
专知
2+阅读 · 2022年3月18日
【ICLR2022】分布外泛化的不确定性建模
专知
2+阅读 · 2022年2月11日
自然语言处理中的文本表示研究
专知
0+阅读 · 2022年1月10日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
18+阅读 · 2021年10月25日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2022年4月15日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
VIP会员
相关VIP内容
【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
144+阅读 · 2021年10月25日
卷积神经网络中的注意力机制综述
专知会员服务
75+阅读 · 2021年10月22日
专知会员服务
29+阅读 · 2021年7月30日
【ICLR2021】常识人工智能,77页ppt
专知会员服务
75+阅读 · 2021年5月11日
专知会员服务
27+阅读 · 2021年5月2日
专知会员服务
56+阅读 · 2021年1月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
103+阅读 · 2020年8月30日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
1+阅读 · 2022年4月15日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Top
微信扫码咨询专知VIP会员