We tackle the low-efficiency flaw of vision transformer caused by the high computational/space complexity in Multi-Head Self-Attention (MHSA). To this end, we propose the Hierarchical MHSA (H-MHSA), whose representation is computed in a hierarchical manner. Specifically, our H-MHSA first learns feature relationships within small grids by viewing image patches as tokens. Then, small grids are merged into larger ones, within which feature relationship is learned by viewing each small grid at the preceding step as a token. This process is iterated to gradually reduce the number of tokens. The H-MHSA module is readily pluggable into any CNN architectures and amenable to training via backpropagation. We call this new backbone TransCNN, and it essentially inherits the advantages of both transformer and CNN. Experiments demonstrate that TransCNN achieves state-of-the-art accuracy for image recognition. Code and pretrained models are available at https://github.com/yun-liu/TransCNN. This technical report will keep updating by adding more experiments.


翻译:我们首先通过将图像补丁看成象征物来了解小网格的低效率缺陷,然后将小网格合并成大网格,通过在前一步将每个小网格看成一个象征物来学习特征关系。为此,我们提议采用等级制MHSA(H-MHSA)模块,以分级方式计算其代表性。具体地说,我们的H-MHSA(H-MHSA)首先通过将图像补丁看成象征物来学习小网格的低效率缺陷;然后,将小网格合并成大网格,其中通过在前一步将每个小网格看成一个象征物来学习特征关系。这个程序是循环,以逐步减少标志的数量。H-MHSA模块很容易插入CNN的任何结构中,并且可以通过反向调整来进行培训。我们称之为这个新的主干网,它基本上继承了变异器和CNN的优势。实验表明TransCNN在图像识别方面达到最先进的精确度。在https://github.com/yun-liu/transtransnCNN.这一技术报告将不断更新,通过添加更多的实验来更新。这个技术报告将不断更新。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
CNN之卷积层
机器学习算法与Python学习
8+阅读 · 2017年7月2日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年3月19日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
CoCoNet: A Collaborative Convolutional Network
Arxiv
6+阅读 · 2019年1月28日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
相关VIP内容
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
CNN之卷积层
机器学习算法与Python学习
8+阅读 · 2017年7月2日
相关论文
Arxiv
0+阅读 · 2021年8月3日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
6+阅读 · 2019年3月19日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
CoCoNet: A Collaborative Convolutional Network
Arxiv
6+阅读 · 2019年1月28日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
5+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员