在当今的数字时代,卷积神经网络(CNNs),作为深度学习(DL)的一个子集,在各种计算机视觉任务中被广泛使用,如图像分类、对象检测和图像分割。有许多类型的CNN被设计来满足特定的需求和要求,包括一维(1D)、二维(2D)和三维(3D)CNNs,以及扩张卷积、分组卷积、注意力卷积、深度卷积和NAS等等。每种类型的CNN都有其独特的结构和特点,使其适用于特定的任务。深入理解并进行这些不同CNN类型的比较分析,了解它们的优势和劣势是至关重要的。此外,研究每种类型的CNN的性能、局限性和实际应用可以帮助未来开发新的和改进的架构。我们还深入探讨了研究者从各种角度利用的平台和框架进行他们的研究或开发。 此外,我们探索了CNN的主要研究领域,如6D视觉、生成模型和元学习。本综述论文提供了对各种CNN架构的全面考察和比较,强调了它们的架构差异,并强调了它们各自的优点、缺点、应用、挑战和未来趋势。
在当今世界,随着技术的持续进步,深度学习(DL)已经成为我们生活的一个不可分割的部分【1】。从Siri和Alexa这样的语音助手,到社交媒体平台上的个性化推荐,DL算法不断在幕后工作,了解我们的偏好,使我们的生活更加便捷【2】。随着技术的发展,DL也被应用于医疗保健、金融和交通等多个领域,彻底改变了我们处理这些行业的方式【3】-【5】。随着DL领域的研究和开发持续进步,我们可以期待更多创新的应用出现,这将进一步增强我们的日常生活。DL已经引领了人工智能的变革时代,使机器能够吸收海量数据集并做出明智的预测【6】【8】。在深度学习的重大进展中,卷积神经网络(CNNs)的发展受到了关注。它们的影响已经在生成式AI、医学图像检查、对象识别【9】和异常发现【10】等领域中显现。作为一种前馈神经网络的CNNs,将卷积操作集成到其架构中【7】【11】。这些操作使CNNs能够熟练地捕捉复杂的空间和层次模式,使它们非常适合图像分析任务【12】。
然而,CNNs在训练和部署期间常常因其计算复杂性而受到负担,尤其是在像手机和可穿戴设备这样的资源受限设备上【12】【13】。
为了加强CNNs的能效,出现了两个主要途径:采用轻量级CNN架构:这些架构经过精心设计,以实现计算效率而不损害准确性。例如,MobileNet系列CNNs专为移动设备设计,并在各种图像分类应用中展现了最先进的准确性【13】。采用压缩技术:这些方法有助于减少CNN模型的大小,从而减少设备间数据传输的量。一个值得注意的例子是TensorFlow Lite框架,它提供了一套专门用于移动设备上压缩CNN模型的压缩技术【14】。
轻量级CNN架构和压缩技术的结合显著提高了CNNs的能源效率。使得在资源受限的设备上训练和部署CNNs成为可能,从而为在医疗保健、农业和环境监测等多种应用中使用CNNs打开了新的机会【12】【16】。 不同的卷积技术如何适应各种AI应用。卷积在现代DL架构中扮演着基础角色,尤其是在处理如图像、音频信号和序列数据这样的网格结构数据时至关重要【23】。卷积操作涉及在输入数据上移动一个小滤波器(也称为内核),执行元素级乘法和聚合。这个过程从输入数据中提取了关键特征【24】。卷积的主要意义在于它们能够有效地捕捉数据中的局部模式和空间关系。这种局域性属性使得卷积特别适合于图像识别等任务,因为可以基于其局部结构识别对象。此外,卷积引入了参数共享,这导致可训练参数的数量显著减少,从而导致模型更加高效和可扩展【25】。现有综述:之前的综述论文如【118】和【120】提供了某一时期流行架构的良好概述。然而,它们缺乏明确的研究问题和目标,评估和基于设计模式的挑战讨论。它们主要按时间顺序讨论架构。
之前的工作讨论了CNNs在某些特定概念和应用中的挑战,但没有广泛覆盖新型CNN架构中存在的内在分类法。因此,我们编写了这篇综述论文,旨在通过提出一种分类法来解决以前工作中的缺口,这种分类法基于它们的内在设计模式而不是发布年份来清晰地分类CNN架构。
我们专注于2012年以后的架构创新,并比早期的综述更深入地讨论最近的发展。讨论最新的趋势和挑战为研究人员提供了更新的视角。
这篇全面的综述论文需要加速这一领域研究进展,它覆盖了CNN的历史、分类法、应用和挑战。
在这篇论文中,我们寻求解决的关键问题包括:
哪些剪枝和量化技术最适合我们的目标应用和硬件?这与基线相比如何?
我们的综述对深度学习(DL)和计算机视觉(CV)社区做出了几个关键贡献:
我们的综述论文的其余部分如下(见图1):第2节将深入探讨卷积的基础,阐明它们的数学公式、操作机制以及它们在神经网络架构中的角色。第3节描述了CNNs的基本部分。在第4节中,探索将涵盖2D卷积、序列数据的1D卷积和体积数据的3D卷积。第5节将调查近年来出现的高级卷积技术。这将包括诸如上采样的转置卷积、效率的深度可分卷积、空间金字塔池化和卷积内的注意力机制等主题。第6节将突出不同卷积类型的现实世界应用,展示它们在图像识别、对象检测、自然语言处理、音频处理和医学图像分析中的实用性。第7节我们将讨论未来趋势和一些关于CNNs的开放性问题。第8节关于CNNs的性能考虑。在第9节中,我们将讨论研究人员和开发者最常使用的平台,在第10节中讨论流行或趋势的研究领域,然后我们在第11节中进行讨论。通过本研究的第8节,读者将深刻理解卷积在DL中的重要性,图2代表了一个读者地图,用于在文本中可视化信息流动。它显示了各个部分之间的联系,帮助读者根据自己的需求理解他们偏好部分的整体结构。