【伯克利博士论文】高效、可扩展的视觉识别神经体系结构，109页pdf

2022 年 8 月 15 日 专知

ConvNets和其他神经体系结构在计算机视觉方面的成功应用是过去十年人工智能革命的核心。对于可扩展视觉架构的强烈需求是既小又大。小型模型代表了对效率的需求，因为视觉识别系统通常部署在边缘设备上;大型模型强调了对可扩展性的追求——利用日益丰富的计算和数据实现更高精度的能力。这两个方向的研究都是卓有成效的，产生了许多有用的设计原则，对更多性能模型的追求从未停止。同时，文献中非常快的发展速度有时会掩盖某些方法取得良好结果的主要机制。在本论文中，我们将从两个方面展开研究:(1)开发高效灵活的ConvNet模型推理直观算法;(2)研究基线方法，揭示流行可扩展方法成功背后的原因。首先，我们将介绍我们对第一个随时密集预测算法之一的工作。然后，我们将通过将模型修剪算法与一个极其简单的基线进行比较来检验它们的有效性，并论证它们的真正价值可能在于学习架构。最后，通过采用《Transformers》中的设计技术对传统的ConvNet进行现代化改造，我们提出了关于自注意力是否导致了Transformer最近出色的视觉扩展性的问题。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-205.html

深度学习的基本原理[103]可以追溯到几十年前，20世纪80年代提出了基于梯度的反向传播学习算法[151]，而ConvNets从早期就被应用于手写数字识别等计算机视觉任务[105]。然而，深度学习的真正威力直到2012年才被揭示出来，那年AlexNet[99]赢得了ImageNet大规模图像分类挑战赛[34]。数据可用性的提高[34,110]、计算技术的进步[124,134]和改进的算法[64,181,95]是深度学习在各个应用领域持续成功的三大支柱[93,159]。随着最近大型模型的兴起，这一领域的快速发展还没有显示出放缓的迹象[13,144]。

深度学习不仅对我们的日常生活产生了显著的影响，还改变了机器学习从业者和研究人员的工作流程——社区已经从使用手工制作的浅层模型特征[123,32](如SVM[27])，转向使用多层深度神经网络自动提取特征表示。手工制作的特性通常是高度特定于任务的，而且不能一般化，设计它们的过程通常很乏味。这种转变极大地解放了研究人员的双手和思想，允许他们更多地专注于建模方面。

自动表示学习的前景令人鼓舞，但实际情况并非如此光明。在实践中，网络结构对学习到的表征的质量有很大的影响。当网络在各种下游任务上进行微调时，学习表征的质量也会传播到准确性。因此，设计正确的神经网络架构现在是至关重要的，因此人类的任务是设计架构，而不是功能。在计算机视觉中，经典的AlexNet是一个复杂的手工设计卷积神经网络的例子——层、内核大小、特征映射大小、深度、宽度和其他配置都是由人类精心选择和平衡的。从那时起，各种各样的神经网络架构被提出，不仅本身作为特征提取器有用，而且带来了新的设计原则。VGGNet[161]填充了3 × 3内核卷积的使用，是同构网络设计的先驱例子。ResNet[64]引入了剩余连接，使数百层的训练网络成为可能。Transformers [181,39]采用多头自注意力作为一种新的网络内部信息交换方式，在大规模训练中表现优异。神经体系结构搜索方法[2189]试图实现神经体系结构设计的自动化，同时从人类设计的网络中借鉴搜索空间设计的智慧[141]。这一领域的不断创新，加上其他训练技术，已经将ImageNet上排名前1的图像分类精度从AlexNet的62.5%提高到现在的近90%。在架构设计的各种目标中，效率和可扩展是两个重要的概念。

这两个方向的研究进展都是卓有成效的，许多有用的架构设计原则被后来的工作所采用。这是一段非凡的旅程，该领域仍在以惊人的速度发展。同时，部分由于在实验中有太多详细的设计选择和超参数，在性能基准上进行系统范围的比较是很常见的，研究人员可以选择有利的配置，并为他们的方法配备额外的技术。这可能导致无法确定实证收益的来源[112]。基线方法有时没有被充分地调整或调整，导致我们无法理解所提议的方法的真正有效性。在本论文中，除了提出一种新的高效架构框架外，我们还采取了批判性的视角，对那些被认为是琐碎或过时的基线的方法或模型进行了实证研究。我们发现，当提供正确的技术时，它们具有惊人的竞争力。这使我们对某些新方法的潜在机制有了更深入的理解，并帮助我们更公平、更准确地评价它们的有效性。