Transformers have attracted increasing interests in computer vision, but they still fall behind state-of-the-art convolutional networks. In this work, we show that while Transformers tend to have larger model capacity, their generalization can be worse than convolutional networks due to the lack of the right inductive bias. To effectively combine the strengths from both architectures, we present CoAtNets(pronounced "coat" nets), a family of hybrid models built from two key insights:(1) depthwise Convolution and self-Attention can be naturally unified via simple relative attention; (2) vertically stacking convolution layers and attention layers in a principled way is surprisingly effective in improving generalization, capacity and efficiency. Experiments show that our CoAtNets achieve state-of-the-art performance under different resource constraints across various datasets. For example, CoAtNet achieves 86.0% ImageNet top-1 accuracy without extra data, and 89.77% with extra JFT data, outperforming prior arts of both convolutional networks and Transformers. Notably, when pre-trained with 13M images fromImageNet-21K, our CoAtNet achieves 88.56% top-1 accuracy, matching ViT-huge pre-trained with 300M images from JFT while using 23x less data.


翻译:变异器吸引了计算机视觉中越来越多的兴趣,但是它们仍然落后于最先进的变异网络。 在这项工作中,我们表明,虽然变异器往往具有较大的模型能力,但由于缺乏正确的感官偏差,其一般化可能比变异网络更糟。为了有效地结合这两个结构的优势,我们展示了CoATNets(推出的“coat”网),这组混合模型来自两个关键见解:(1) 深度变异和自我保持可以通过简单的相对关注而自然地统一;(2) 垂直堆叠堆叠层和关注层以原则性的方式在改进一般化、能力和效率方面出乎意料的效果。实验显示,我们的CoAtNet在各种数据集的不同资源制约下,取得了最先进的业绩。例如,CoAtNet在没有额外数据的情况下实现了86.0%的图像网络头1的精确度,89.77%的混合模型具有额外的JFT数据,这两个变异网络和变器的先前艺术表现优异器。 值得注意的是,当预先用13M图像对IMage-21K的13M图像进行了培训时,同时利用23-FFFFF3-21K的高级数据进行最低的精确化数据。

0
下载
关闭预览

相关内容

在数学(特别是功能分析)中,卷积是对两个函数(f和g)的数学运算,产生三个函数,表示第一个函数的形状如何被另一个函数修改。 卷积一词既指结果函数,又指计算结果的过程。 它定义为两个函数的乘积在一个函数反转和移位后的积分。 并针对所有shift值评估积分,从而生成卷积函数。
专知会员服务
51+阅读 · 2021年5月30日
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
65+阅读 · 2021年5月23日
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2018年10月16日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Arxiv
9+阅读 · 2021年5月17日
Arxiv
11+阅读 · 2018年10月17日
Arxiv
10+阅读 · 2018年2月4日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2018年10月16日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Top
微信扫码咨询专知VIP会员