Multilayer perceptron (MLP), as the first neural network structure to appear, was a big hit. But constrained by the hardware computing power and the size of the datasets, it once sank for tens of years. During this period, we have witnessed a paradigm shift from manual feature extraction to the CNN with local receptive fields, and further to the Transform with global receptive fields based on self-attention mechanism. And this year (2021), with the introduction of MLP-Mixer, MLP has re-entered the limelight and has attracted extensive research from the computer vision community. Compare to the conventional MLP, it gets deeper but changes the input from full flattening to patch flattening. Given its high performance and less need for vision-specific inductive bias, the community can't help but wonder, Will MLP, the simplest structure with global receptive fields but no attention, become a new computer vision paradigm? To answer this question, this survey aims to provide a comprehensive overview of the recent development of vision deep MLP models. Specifically, we review these vision deep MLPs detailedly, from the subtle sub-module design to the global network structure. We compare the receptive field, computational complexity, and other properties of different network designs in order to have a clear understanding of the development path of MLPs. The investigation shows that MLPs' resolution-sensitivity and computational densities remain unresolved, and pure MLPs are gradually evolving towards CNN-like. We suggest that the current data volume and computational power are not ready to embrace pure MLPs, and artificial visual guidance remains important. Finally, we provide an analysis of open research directions and possible future works. We hope this effort will ignite further interest in the community and encourage better visual tailored design for the neural network at the moment.


翻译:作为第一个神经网络结构出现的第一个神经网络结构(MLP ), 是一个巨大的打击。 但受到硬件计算力和数据集大小的限制, 它在数十年中一度沉没。 在此期间, 我们目睹了由手动地物提取到有本地接收场的CNN的范式转变, 更进一步到基于自我关注机制的全球接受场的转型。 今年(2021年), 引入了 MLP- Mixer, MLP 重新进入了光亮, 吸引了计算机视觉界的广泛研究。 与常规的 MLP 相比, 它变得更深了, 却改变了从完全平坦缩到平坦化的输入。 鉴于其高性能和较少需要针对视觉的偏差偏差的偏差场, 社区不能不禁想知道, Will MLP, 以全球接受场最简单的结构, 可能变成一个新的计算机视觉范式。 为了回答这个问题, 本次调查旨在全面介绍最新的直观MLP 的快速发展方向。 具体地, 我们审查这些直观的MLP, 的直观性网络的精度, 从最后的精细的精细的网络 的网络 显示了我们的精细的网络 的构造的构造, 的精细的模型的构造的构造, 从最后的精细的精细的精细的构造,,,, 显示的精细的精细的精细的模型的构造的构造的精细的网络,,, 从我们的精细的精细的构造, 向,, 从我们的精细的精细的精细的精细的精细的精细的构造的构造的构造的精细的精细的精细的精细的精细的精细的精细的精细的精细的精细的网络的构造的网络, 从的网络的网络的计算,, 从我们的精细的精细的精细的精细的精细的精细的精细的精细的精细的精细的精细的构造的构造的构造的构造的构造的构造的构造, 从我们的精细的精细的精细的精细的精细的精细的精细的精细的精细的精细的精细的

0
下载
关闭预览

相关内容

Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
已删除
将门创投
8+阅读 · 2017年7月21日
Arxiv
28+阅读 · 2021年9月26日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
16+阅读 · 2021年3月2日
Arxiv
19+阅读 · 2020年12月23日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
VIP会员
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
已删除
将门创投
8+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员