Vision Transformers (ViT) have recently emerged as a powerful alternative to convolutional networks (CNNs). Although hybrid models attempt to bridge the gap between these two architectures, the self-attention layers they rely on induce a strong computational bottleneck, especially at large spatial resolutions. In this work, we explore the idea of reducing the time spent training these layers by initializing them as convolutional layers. This enables us to transition smoothly from any pre-trained CNN to its functionally identical hybrid model, called Transformed CNN (T-CNN). With only 50 epochs of fine-tuning, the resulting T-CNNs demonstrate significant performance gains over the CNN (+2.2% top-1 on ImageNet-1k for a ResNet50-RS) as well as substantially improved robustness (+11% top-1 on ImageNet-C). We analyze the representations learnt by the T-CNN, providing deeper insights into the fruitful interplay between convolutions and self-attention. Finally, we experiment initializing the T-CNN from a partially trained CNN, and find that it reaches better performance than the corresponding hybrid model trained from scratch, while reducing training time.


翻译:虽然混合模型试图缩小这两个结构之间的差距,但是它们所依赖的自我注意层却引致了一个强大的计算瓶颈,特别是在广大的空间分辨率上。在这项工作中,我们探索了如何缩短这些层次所花费的培训时间的想法,将它们初始化为共变层。这使我们能够顺利地从任何受过预先训练的CNN转变为其功能相同的混合模型,称为CNN(T-CNN)。由于只有50个微调阶段,由此产生的T-CNN显示出了CNN在CNN上(在图像网-1k上为ResNet50-RS加2.2%的顶部-1)上的显著的绩效增益,以及大幅提高的稳健性(在图像网-C上加11%顶部-1)。我们分析了T-CNN所学的表述,更深入地揭示了共变和自我注意之间的富有成效的相互作用。最后,我们从一个经过部分培训的CNN试验的T-CN,发现它的表现优于从头部受训的相应混合模型,同时减少了培训时间。

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年11月3日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Arxiv
7+阅读 · 2021年3月15日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
相关资讯
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Top
微信扫码咨询专知VIP会员