Convolutional neural networks (CNN) are the dominant deep neural network (DNN) architecture for computer vision. Recently, Transformer and multi-layer perceptron (MLP)-based models, such as Vision Transformer and MLP-Mixer, started to lead new trends as they showed promising results in the ImageNet classification task. In this paper, we conduct empirical studies on these DNN structures and try to understand their respective pros and cons. To ensure a fair comparison, we first develop a unified framework called SPACH which adopts separate modules for spatial and channel processing. Our experiments under the SPACH framework reveal that all structures can achieve competitive performance at a moderate scale. However, they demonstrate distinctive behaviors when the network size scales up. Based on our findings, we propose two hybrid models using convolution and Transformer modules. The resulting Hybrid-MS-S+ model achieves 83.9% top-1 accuracy with 63M parameters and 12.3G FLOPS. It is already on par with the SOTA models with sophisticated designs. The code and models will be made publicly available.


翻译:革命性神经网络(CNN)是计算机视觉的主要深层神经网络(DNN)结构。最近,以变异器和多层光谱模型(MLP)为基础的模型(如Vision变异器和MLP-Mixer)开始引领新的趋势,因为它们在图像网络分类任务中显示出有希望的结果。在本文件中,我们对这些DNN结构进行了经验研究,并试图了解它们各自的利弊。为了确保公平比较,我们首先开发了一个称为SPANH的统一框架,这个框架采用不同的空间和频道处理模块。我们在SPACH框架下进行的实验显示,所有结构都能在中等规模上取得竞争性的性能。然而,在网络规模扩大时,它们展示了独特的行为。根据我们的调查结果,我们提出使用变异和变异模块的两个混合模型。由此形成的混合-MS-S+模型在63M参数和12.3G FLOPS中达到了83.9%的顶级精确度。它已经与SOTA模型相近且设计精密的模型。代码和模型将被公开使用。

12
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
65+阅读 · 2021年5月23日
注意力机制综述
专知会员服务
203+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
专知会员服务
78+阅读 · 2020年8月4日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
LibRec 精选:EfficientNet、XLNet 论文及代码实现
LibRec智能推荐
5+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月17日
Arxiv
9+阅读 · 2021年5月17日
Arxiv
13+阅读 · 2019年11月14日
Arxiv
6+阅读 · 2019年4月8日
VIP会员
相关VIP内容
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
65+阅读 · 2021年5月23日
注意力机制综述
专知会员服务
203+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
专知会员服务
78+阅读 · 2020年8月4日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
LibRec 精选:EfficientNet、XLNet 论文及代码实现
LibRec智能推荐
5+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员