基于深度神经网络的高效视觉识别研究进展与新方向

视觉识别是当前计算机视觉、模式识别乃至人工智能领域最重要、最活跃的研究领域之一。它具有重大的基础重要性和强烈的工业需求。在大量训练数据和新的强大计算资源的帮助下，深度神经网络在许多具体任务上大大提高了其性能。虽然识别精度通常是新进展的首要考虑，但效率实际上是相当重要的，有时对学术研究和工业应用都至关重要。此外，整个社会也高度需要对效率的机遇和挑战有深刻见解。虽然从不同角度对DNN的效率问题进行了全面的调研，但据我们所知，很少有系统地关注视觉识别，因此不清楚哪些进展适用于视觉识别，还有哪些需要关注。在本文中，我们回顾了近年来的研究进展，并对提高DNN相关视觉识别方法的效率提出了可能的新方向。我们不仅从模型的角度进行调研，而且还从数据的角度进行调研(在现有的调研中并非如此)，并关注三种最常被研究的数据类型(图像、视频和点)。本文试图通过全面的调研，对视觉识别问题进行系统的总结，以期对从事视觉识别研究的研究者和实践者提供有价值的参考。

深度神经网络(DNNs)在许多视觉识别任务中取得了巨大的成功。它们极大地改善了手写数字识别[1]、人脸识别[2]、图像分类[3]等长期存在的问题的性能。他们也使探索新的边界，包括研究图像和视频字幕[4]-[6]，身体姿势估计[7]，和许多其他。然而，这种成功通常取决于大量高质量的手标记训练数据和最近非常先进的计算资源。显然，在大多数成本敏感的应用程序中，这两个条件通常过于昂贵而无法满足。即使由于许多标注者的大量努力，人们确实有了足够的高质量训练数据，但要弄清楚如何在有限的资源和可接受的时间内训练有效的模型，通常也是一个巨大的挑战。假设模型可以以某种方式得到适当的训练(无论花费多少努力)，在终端用户的实际应用程序中部署模型仍然不容易，因为运行时推断必须适合可用的或负担得起的资源，而且运行速度必须满足实际需要，可以是实时的，甚至是更高的。因此，除了学术界通常最关注的准确性之外，效率是另一个重要问题，在大多数情况下，是实际应用中不可缺少的需求。

虽然目前使用DNN进行视觉识别任务的研究主要集中在准确性方面，但在效率方面仍有许多可喜的进展，特别是在最近几年。在过去的两年中，已经发表了许多关于DNN效率问题的调研论文，详细内容见下文I-A小节。然而，这些方法都没有重点关注视觉识别任务，特别是缺少有效处理视觉数据的专项工作，而视觉数据处理有其自身的特点。在实践中，有效的视觉识别必须是一个系统的解决方案，不仅要考虑到紧凑/压缩的网络和硬件加速，而且还要正确处理视觉数据，这些数据可能是各种类型(如图像、视频和点)，具有相当不同的属性。这可能是缺乏关于这个主题的调研的一个重要原因。因此，就我们所知，本文首次对基于DNN的高效视觉识别进行了综述。基于我们在主要视觉数据类型、它们的各种识别模型和网络压缩算法方面的专业知识和经验，本课程旨在从各个方面系统地概述最近的进展和趋势。

相比之下，本综述主要关注从原始视觉数据到最终识别结果的生产全局效率，希望能帮助对现代视觉识别任务及其高效的基于DNN的解决方案感兴趣的读者。这篇论文在以下几个方面也有我们所知的创新之处。1)系统地综述了神经网络在视觉识别领域的研究进展，这是我们所知的同类研究的首次。2)第一次总结了有效视觉识别的数据相关问题，包括数据压缩、数据选择和数据表示。3)从有利于视觉识别任务的角度研究网络压缩模型。4)在高效视觉识别领域，综述了运行时推理和模型泛化的加速方法。5)对DNN高效视觉识别的挑战、机遇和新方向进行深入讨论。为了清楚地了解这个调研的脉络，图1是作为组织的蓝图。具体来说，在第二节中，我们将介绍视觉识别问题中常见的三种主要数据类型，并讨论它们的属性以及与它们相关的挑战。第三节回顾了在实际识别部分之前的三个方面的工作: 数据压缩、数据选择和数据表示。第四节简要介绍和分析了网络压缩在视觉识别领域的广泛研究方向。第五部分对测试阶段的高效模型泛化和快速推理的最新进展进行了总结，这对基于DNN的视觉识别系统的实际部署非常重要。最后，第六节概述了所有努力，以产生一个清晰的总体映射，并讨论了一些重要的未发现的方面和新的研究方向。

成为VIP会员查看完整内容