Several recent studies have demonstrated that attention-based networks, such as Vision Transformer (ViT), can outperform Convolutional Neural Networks (CNNs) on several computer vision tasks without using convolutional layers. This naturally leads to the following questions: Can a self-attention layer of ViT express any convolution operation? In this work, we prove that a single ViT layer with image patches as the input can perform any convolution operation constructively, where the multi-head attention mechanism and the relative positional encoding play essential roles. We further provide a lower bound on the number of heads for Vision Transformers to express CNNs. Corresponding with our analysis, experimental results show that the construction in our proof can help inject convolutional bias into Transformers and significantly improve the performance of ViT in low data regimes.


翻译:最近的几项研究表明,关注型网络,如愿景变换器(VIT),可以在不使用进化层的情况下,在几项计算机视觉任务上超越进化神经网络(CNNs),这自然导致以下问题:VIT的自我关注层能表达任何进化操作吗?在这项工作中,我们证明一个具有图像补丁的单一维T层作为投入可以建设性地实施任何进化操作,多头关注机制和相对位置编码可以发挥关键作用。我们进一步为愿景变换器的负责人人数提供了较低的约束,以表达CNNs。根据我们的分析,实验结果表明,我们的证据构建可以帮助将进化偏差注入变换器,并大大改善VIT在低数据系统中的性能。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
6+阅读 · 2019年4月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关资讯
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
相关论文
Arxiv
11+阅读 · 2021年10月26日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
6+阅读 · 2019年4月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
Top
微信扫码咨询专知VIP会员