还在纠结CNN还是Transformer？清华发表一篇survey：全连接层才是终极答案！

会员服务 ·

还在纠结CNN还是Transformer？清华发表一篇survey：全连接层才是终极答案！

2021 年 11 月 24 日 新智元

新智元报道

编辑：LRS

【新智元导读】随着神经网络的发展，各种各样的模型都被研究出来，卷积、Transformer也是计算机视觉中国常用的模型，而最近清华大学发表了一篇survey，研究结果或许表明全连接层才是最适合视觉的模型，并将迎来新的AI范式转换！

多层感知机（MLP）或全连接（FC）网络是历史上第一个神经网络结构，由多层线性层和非线性激活叠加而成，但受到当时硬件计算能力和数据集大小的限制，这颗明珠被埋没了数十年。

这场人工智能变革也带来了一次AI范式的转换，从手工抽取特征到CNN自动抽取局部特征，基于深度学习的计算机视觉的就是利用多层感知机的计算模型来模拟大脑感知和理解视觉信息的过程。

为了更好地解释多层前馈网络，研究者通过数学理论对多层前馈网络进行了分析，得出多层前馈网络是通用的近似网络（universal approximators）。一些研究结果表明，不同形式和复杂度的多层感知机可以很好地实现任意一个连续函数，但前提是有足够数量的神经元可用。

虽然理论很美，但实践却相当困难！

多层感知机最早是在MNIST上进行测试的一个分类器，将28×28的图像按行平展成一个一维矢量，这个矢量被视为初始节点然后经过一个全连接层。

在当年的神经网络通常只有很少的几层网络，并且每层网络内只有少数几个神经元，在CPU核心频率比今天慢上百倍或数千倍时，MLP就能被训练出来了，更不用说现在我们还有了GPU和TPU这种大杀器。

在研究过程中发现，MLP具有计算密集的特点，并且在数据量不足时容易过度拟合。Hinton提出使用预训练和微调的方式来创建一个深度自编码器来解决问题。

然而，输入平坦化（input flattening）仍然是MLP模型的一个问题，并限制了输入图像只能是固定分辨率。由于当时可用的硬件和数据仍然有限，MLP没有看到春天的到来，人工智能就进入寒冬了。

几年后，随着计算能力的提高，并且可以用更大的数据集（如ImageNet），直接导致模型训练范式的转变，卷积神经网络（CNN）也是这一范式的代表模型。

卷积神经网络以灵活、可训练的结构取代了手工设计的特征选择。CNN固有的不变性和局部连通性等有助于图像特征提取。

虽然CNN已经成为计算机视觉领域上的标准模型，但在2020年，Vision Transformer（ViT）的出现引发了新一轮范式转变（paradigm shift）。

ViT及其变体基于自注意层，将全局感知引入计算机视觉，其在各大图像分类基准上表现的更强。

在这些范式转变中，人工干预逐渐减少，性能也逐渐提升。

但天下没有免费的午餐，ViT的胃口更大，需要更大的计算量、更多的训练数据才能表现的更好。

2021年5月，当Transformer的问题还没敲定时，MLP又回来了，带着更多的隐藏层和更多样的（compromise）平坦输入。

几乎所有的研究机构（包括Google、牛津大学、清华大学、Meta等等）同时提出一个问题：

卷积层和注意力层有必要吗？当前是否已经准备好迎接下一个范式的转换了？

研究人员只需要在patch上简单地堆叠一些全连接层就可以在ImageNet上得到只比CNN和ViT弱一点点的模型。这种纯粹的MLP架构模型不仅保留了全局感知的能力，还引入了一些归纳偏差（inductive bias）。

学习算法的归纳偏差是一组假设，学习者使用这些假设来预测给定输入的输出，而这些输入是他们训练过程中没有遇到的。深度MLP进一步消除了这些假设，并允许网络从原始数据中学习权重。

为了回答这个问题，清华大学的研究人员写了一篇survey，重点是全面概述最新的visual deep MLP模型，并阐明deep MLP的最新发展。

文中首先回顾了传统的MLP，并简要概述了过去十年中的范式转变，有助于读者理解最新的网络设计。

然后回顾了最近的一些模型模型的设计，描述了MLP、卷积和自我注意机制之间的区别和联系，并介绍了纯深层MLP体系结构面临的瓶颈和挑战。比较各种深度MLP变体的块设计，分析它们在设计实现、计算复杂性和感受野方面的异同。从内部到外部，从宏观角度分析了块体堆叠的发展，并将其分为单阶段、两阶段和金字塔类型。

此外，文章还比较和讨论了基于MLP、基于CNN和基于Transformer的不同模型的性能。

文章作者郑海涛是来自清华大学深圳国际研究生院的副教授、博士生导师、智能语义挖掘技术工程实验室副主任。2004年于中山大学计算机软件专业硕士毕业，2009年韩国首尔国立大学医疗信息学专业博士毕业。

研究方向包括网络科学、语义网、信息检索、机器学习、医疗信息及人工智能等。博士学习期间被授予韩国政府BK奖学金(Brain Korea Scholarship)，主持了国家自然科学基金和教育部博士点基金各一项，担任国家863项目副组长。

研究结果表明，目前的数据量和计算能力还不足以支持纯MLP模型的最佳学习，人工干预仍然有着重要的影响，但还有一些问题需要研究。

视觉裁剪设计（Vision Tailored Designs）

在目前的数据量和计算量下，人类的指导仍然很重要，能够有效结合其他神经网络的架构的优势。当前的深层MLP体系结构可能仍然是一种用于短期和长期依赖的选择，但还需要进一步的研究以使它们更有效地用于视觉输入。

研究人员认为在未来，研究社区应侧重于如何将短期和长期依赖结合起来，因为局部细节有助于我们理解单个物体，物体在整个视野中的相互作用对我们的判断仍然很重要。需要注意的是，全连接层的权重取决于位置，并且也与图像分辨率相对应，因此很难转移到下游任务。

硬件高效设计（Hardware Efficient Designs）

从实验室到日常生活，基于MLP的网络需要更密集的计算，所以如果想要把模型从实验室搬到消费者面前，需要将它们能够部署到边缘设备和资源受限的环境，如收集等。目前，视觉领域的 MLP缺乏这种高效的硬件设计，无法将其无缝部署到资源受限的设备中。

纯MLP模型如何进行低精度训练和推断？纯MLP模型如何进行知识蒸馏？如何使用Nerual Architecter Search（NAS）设计更高效、更轻重量的MLP模型？找到这些问题的答案也许能有所帮助。

可解释性（Interpretability）

另一个可以研究的方向是更深入地分析和比较网络学习的filter以及产生的特征图。纯MLP模型延续了从模型中去除手工视觉特征和归纳偏差的长期趋势，并依赖于从原始数据中学习。

数学解释和可视化分析都有助于理解神经网络可以在较低的优先级下自由地从大量原始数据中学习到什么。这有助于确定过去的一些人工优先级是正确的还是不正确的，并可能提供未来网络改进方向设计选择上的指导方向。

自监督学习方法

纯MLP模型需要大量的训练数据，在小数据集上很容易过度拟合。出于这些原因，自监督的预训练将会非常有用。预训练有助于泛化，标签中非常有限的信息仅用于微调整权重。考虑到计算成本，对比式方法似乎优于生成式方法。目前，许多对比学习框架都是针对CNN 的，特征向量的相似性被用作训练目标。

以前的比较学习方法对纯MLP模型是否仍然有效？能为MLP设计一种更好的自我监督培训方法吗？此外，Hinton提出的基于能量的预训练方法能否再次应用？研究人员认为自监督学习将是加速MLP模型发展的一个很好的推动力。

参考资料：

https://arxiv.org/abs/2111.04060

登录查看更多

相关内容

多层前馈

关注 0

周志华教授：关于深度学习的一点思考

专知会员服务

122+阅读 · 2021年11月23日

卷积神经网络中的注意力机制综述

专知会员服务

77+阅读 · 2021年10月22日

【ICCV2021】基于Transformer 的神经绘画

专知会员服务

23+阅读 · 2021年9月20日

CNN/MLP/Transformer, 究竟谁行？中科大&微软实证三大网络结构公平比较，各有可取之处

专知会员服务

34+阅读 · 2021年9月18日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

109+阅读 · 2021年8月13日

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

专知会员服务

194+阅读 · 2021年6月10日

注意力机制综述

专知会员服务

208+阅读 · 2021年1月26日

Transformer替代CNN？8篇论文概述最新进展！

专知会员服务

77+阅读 · 2021年1月19日

【文本分类大综述：从浅层到深度学习，35页pdf】

专知会员服务

188+阅读 · 2020年8月6日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

CVPR 2022 | Mobile-Former来了！微软提出：MobileNet+Transformer轻量化并行网络

极市平台

0+阅读 · 2022年4月4日

「变形金刚」5年代替狂卷的CNN！Transformer将统帅人工智能？

新智元

1+阅读 · 2022年3月11日

将大核卷积分三步，清华胡事民、南开程明明团队全新视觉骨干VAN，超越SOTA ViT和CNN

极市平台

0+阅读 · 2022年2月28日

Transformer秒杀CNN，凭什么？

专知

0+阅读 · 2021年11月15日

北大联合UCLA发表论文：9头以上Transformer就能模拟CNN！

极市平台

0+阅读 · 2021年11月7日

用Transformer完全替代CNN

CVer

20+阅读 · 2020年10月23日

CNN已老，GNN来了！清华大学孙茂松组一文综述GNN

新智元

35+阅读 · 2018年12月26日

机器学习、深度学习知识点总结及面试题

全球人工智能

17+阅读 · 2018年1月4日

[学习] CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别？

菜鸟的机器学习

38+阅读 · 2017年7月26日

卷积神经网络(CNN)学习笔记1：基础入门

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月16日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

前馈神经网络的结构稀疏化设计与分析

国家自然科学基金

0+阅读 · 2014年12月31日

基于主动轮廓模型的自然图像分割研究

国家自然科学基金

0+阅读 · 2013年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

基于稀疏编码模型的深层学习神经网络

国家自然科学基金

7+阅读 · 2012年12月31日

自然视觉的选择性注意在计算机视觉中的实现

国家自然科学基金

1+阅读 · 2012年12月31日

基于流形和视觉注意的复杂场景夜视目标识别

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉显著性和稀疏表示的图像质量评价

国家自然科学基金

1+阅读 · 2012年12月31日

大规模数据的个性化分类学习

国家自然科学基金

1+阅读 · 2012年12月31日

面向高复杂异构数据的新的特征提取与分类方法的研究

国家自然科学基金

2+阅读 · 2008年12月31日

Image Captioning In the Transformer Age

Arxiv

1+阅读 · 2022年4月15日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP

Arxiv

12+阅读 · 2021年8月30日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

A Survey of Methods for Low-Power Deep Learning and Computer Vision

Arxiv

14+阅读 · 2020年3月24日

VIP会员