从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

如何使用AI生成数据集？这篇综述详细涵盖

随着数据的可用性，视觉智能的发展与之密切相关。与此同时，生成式人工智能（AI）已经解锁了创建与真实世界照片极为相似的合成图像的潜力，这引发了一个引人注目的问题：视觉智能如何从生成式AI的进步中受益？本文探讨了利用这些AI生成的图像作为新的数据来源这一创新概念，重新塑造了视觉智能中的传统模型范式。与真实数据相比，AI生成的数据来源展现出了卓越的优势，包括无与伦比的丰富性和可扩展性、快速生成大量数据集、以及轻松模拟边缘情况。基于生成式AI模型的成功，我们研究了其生成数据在各种应用中的潜力，从训练机器学习模型到为计算建模、测试和验证模拟场景。我们探讨了支持这一生成式AI突破性应用的技术基础，并深入讨论了伴随这一转型范式转变的伦理、法律和实践考虑因素。通过对当前技术和应用的详尽调查，本文为视觉智能中的合成时代提供了一个全面的视角。本文的相关项目可以在https://github.com/mwxely/AIGS 找到。

数据在现代机器学习系统中已成为关键角色。特别是，利用深度学习模型的系统需要大量数据集来实现准确性、鲁棒性和泛化能力。然而，数据收集过程，如各种视觉任务所需的手工标注，常常是繁琐和耗时的。因此，深度学习模型可能会受到三重困境的制约，即数据质量、数据稀缺，以及数据隐私和公平性[11]。另一方面，我们见证了AI生成内容（AIGC）在生产高度写实的图像方面取得了重大进展，确保了质量和多样性。这样的AIGC进展开辟了用无尽的AI生成数据替代真实数据的吸引力可能性，增强了数据的可控性和可扩展性，并减少了隐私关切[12]。为此，我们研究AI生成的图像作为数据来源的概念，称为AIGS，并深入地了解生成型AI产生的合成数据如何彻底改变视觉智能的发展。合成数据指的是由计算机算法或模拟生成的数据，作为对在现实世界中收集或测量的信息的近似[13]-[15]。在AIGC爆炸之前，合成数据集通常是由图形引擎或图像组合生成的。例如，众所周知的Virtual KITTI[16]是一个数据集，旨在学习和评估多个视频理解任务（例如，物体检测、多物体跟踪、实例分割等）。作者使用现成的游戏引擎脚本来重构场景，并自动生成基本真实的标签。Virtual KITTI 2[17]是Virtual KITTI的更新版本，其中包括了场景变体，如修改后的天气条件和摄像机配置，使其更适合用于评估自动驾驶算法。基于合成的图像在计算机视觉任务中被广泛采用，尤其是在场景文本检测和场景文本识别中，以提供额外的样本来评估模型的泛化能力，同时节省了手动标注的成本。例如，Gupta等人[18]提议将前景文本覆盖到现有的背景上下文中，形成合成的场景文本图像。文本的位置和方向是基于局部颜色和纹理的几何估计来确定的。Zhan等人[19]在将文本嵌入背景图像时，考虑了语义连贯性和视觉显著性，产生了更适当的组合。UnrealText[20]利用3D图形引擎（Unreal Engine 4）渲染文本图像和3D世界中的文本。采用了两阶段的流水线来探测对象网格周围并找到适当的文本区域。上述两种合成图像生成方法都可以节省标注成本，然而，图形引擎生成的图像与真实世界数据存在域间隔，空间占用巨大，数据量有限。此外，图像组合需要额外的努力来视觉地理解背景和前景图像之间的相关性。

另一方面，AIGS方法绕过了繁琐的视觉理解过程，直接生成高质量、高多样性的图像，域间隔更小。总的来说，视觉内容合成的工具可以归纳为两个分支，即生成模型和神经渲染。在生成模型中，生成对抗网络（GANs）[21]和扩散模型（DMs）[22]是最常被采用的选择。自2014年以来，GANs作为一个高效的图像合成器家族出现，为图像操作持有丰富的语义潜在空间。作为一种新型的生成基础模型，DMs具有一个稳定的训练目标，并展现出了良好的可扩展性[23]，以获得更好的样本质量[24]。除了生成模型，神经渲染为从学习到的3D场景表示中合成多视图图像提供了宝贵的方法，同时保留了底层的3D信息。

AIGS方法利用生成模型主要包括训练数据合成和测试数据合成。合成训练数据来源于两个源，即，具有精确像素级注释的新生成的图像，和用于数据增强的补充图像。在图像合成期间获取标签的三种方法已被广泛使用，分别是：(1)条件生成模型；(2)潜在空间泛化；(3)复制-粘贴合成。使用条件生成模型，可以从输入条件中自然地获得注释训练数据，特别是对于分类数据[25]和检测数据[26]。此外，由于生成模型能够通过丰富的潜在代码从图像中捕获强大的语义信息，可以使用很少的手动注释图像[1],[27],[28]或经过细化的交叉注意力图[29],[30]生成合成图像的分割掩码。这两种方法都有效地利用了从潜在空间派生的生成特性。此外，复制-粘贴合成已成为生成带有边界框注释的复合图像的新方法。前景物体被剪切并粘贴到背景上下文中，因此每个对象的类别和位置可以轻松学习。当涉及到数据增强时，既可以使用完全合成的数据，这通常是由条件生成模型[3],[31]指导和生成的，也可以使用语义操作通过潜在空间采样技术返回的半合成数据（例如，GAN反转[32],[33]）来扩展现有数据集。在测试数据方面，有两个主要用途，包括泛化能力评估和鲁棒性测试。合成测试数据可以用来形成更全面的测试集，从而提高测试模型的泛化性能[34],[35]。此外，由于文本引导的生成模型能够生成编辑后的图像同时保留其语义内容，合成的域移位图像可以成为测试模型鲁棒性的有希望的数据源，减少注释成本[34]。在这次调查中，当我们提到生成图像时，我们指的是由生成模型生成的图像。生成图像和真实图像之间的关键区别在图2中说明。

随着神经场的出现，特别是神经辐射场 (NeRF) [36]，计算机视觉社区对3D感知图像合成越来越感兴趣。然而，由于训练数据的稀缺以及多视角一致性的严格要求，3D感知的AIGS仍然面临巨大的挑战。利用神经渲染的AIGS方法主要包括3D感知训练数据合成和环境模拟。如图1所示，已有许多生成带有3D感知注释的图像的例子，如获得相机和物体姿势[37]–[44]、物体对应关系[7]、3D边界框[45]、网格、深度以及法线标签。NeRF在新视角合成方面表现出色，因此它可以用于增强多视角数据集，特别是在机器人学[7]和自动驾驶[46]领域。目前自动驾驶算法的瓶颈源于意外的特殊情况。为此，环境(传感器)模拟可以是一个有希望的解决方案。一些最近的工作[8],[47]表明，得益于NeRFs的真实渲染能力，可以轻松完成3D动态场景的模拟，模拟与真实的差距很小。

据我们所知，这是第一个全面审查在各种计算机视觉任务和应用中生成数据的影响和增强的调查，伴随着对生成数据的广泛评估。此前，Dankar 等人[13]和Figueira等人[48]发布了有关有效合成数据生成的调查论文，分别关注使用非深度学习技术和GANs生成合成图像。2022年8月，Joshi等人[12]发布了一个预印本调查，关于人类相关应用的合成数据。2022年11月，Man等人[49]发布了一篇综述论文，提供了合成图像的分类学和常见图像合成方法的总体概述，但没有强调讨论像GANs或DMs这样的生成深度学习模型和神经渲染方法。2023年2月，Lu等人[11]发布了一个预印本调查，旨在调查使用机器学习模型生成合成数据的研究，并讨论隐私和公平问题。最近，Li等人[50]发布了一个预印本报告，对视觉识别任务的生成数据进行了基准测试。与此不同，我们审查了从神经图像合成管道生成的合成数据作为数据源，通过统一以下三个主要方面： (1) 为生成模型和神经渲染制定AIGS方法论； (2) AIGS应用分类，包括视觉感知、视觉生成、视觉表示以及涉及计算机视觉的其他领域（例如，机器人技术和医学）； (3) 评估AI生成的图像的内在质量以及它们在各种下游识别任务中的性能提升。

此调查的贡献可以总结如下：

• 本调查包括大量关于AI生成的图像作为数据源的工作，并在一个合理结构的框架中体现了最新的AIGS方法。 • 我们介绍了AIGS的基本思想和背景信息，并强调如何生成和利用合成图像（第2节）。 • 我们检查了计算机视觉领域的广泛的AIGS应用，如视觉感知任务、视觉生成任务和自我监督学习（第3节）。 • 我们提供了关于AI生成的图像的最新数据集和评估指标的总结，并使用精确的定量结果和定性分析对现有方法进行基准测试（第4节）。 • 本调查总结了AIGS，并讨论了社会影响分析（第5节）和当代研究和实际世界中的挑战（第6节），并附带了我们对AIGS有前景的研究方向和未来发展趋势的看法。 2 方法

生成式模型

广义上讲，生成模型包括生成对抗网络 (GANs) [21]、变分自编码器 (VAEs) [51]、自回归模型 [52], [53]、流模型 [54], [55]、以及扩散模型 (DMs) [22]。特别地，由于它们在视觉生成中的广泛应用，GANs 和 DMs 在AIGS中显著地成为了最常用的基础模型。在以下章节中，我们首先回顾GANs 和 DMs的基本原理 (第2.1.1节)。之后，我们展示在训练数据合成过程中 GANs 和 DMs 是如何工作的 (第2.1.2节)。 **神经渲染 **

在2.1节讨论的生成模型仅涵盖了2D图像合成，而没有考虑到3D真实世界的信息。近年来，神经辐射场 (NeRF) [36] 已成为用于3D一致性的新视角合成的热门模型。我们将深入讨论NeRF的基础原理 (第2.2.1节)，并详细解释如何使用NeRF生成合成图像 (第2.2.2节)。

**3 应用 **

作为一个相对新的机器学习范式，AIGS已经赋予计算机视觉中的各种下游任务新的能力。在本节中，我们将深入研究与AIGS相关的那些应用。尤其是，我们将关注以下五个子类：(1) 2D视觉感知任务，包括图像分类（第3.1节）、图像分割（第3.2节）和物体检测（第3.3节），其中这三个任务迄今为止占据了AIGS应用的绝大部分；(2) 视觉生成任务（第3.4节），我们探讨在训练生成模型而非判别模型时如何使用合成图像；(3) 自我监督学习任务（第3.5节），我们关注合成图像如何使视觉表示学习者变得更强大；(4) 3D视觉感知任务，包括在机器人技术（第3.6节）和自动驾驶（第3.7节）领域的应用，我们将检查在建模复杂的3D场景时合成图像如何传递3D感知信息；(5) 其他应用（第3.8节），我们将研究如何在一些特定的场景中，如医学和测试数据合成，应用AIGS范式。详细的分类呈现在图7中。

4. 实验评价

数据集是计算机视觉任务的本质。得益于AIGS的崛起，现有的稀缺数据集可以在内容和风格上都增加更高的多样性，同时节省标注成本。在实践中，合成数据集可以分为两个子组：(1) 完全合成的数据集（例如，DiffusionDB [213]、JourneyDB [214]），它们包含从T2I生成模型中检索的合成图像-文本对。它们通常用于多模态视觉理解任务；(2) 半合成数据集（例如，ForgeryNet [215]、DeepArt [35]、GenImage [216]），其中包含真实图像和合成图像。它们通常包含相似数量的真实图像和伪造图像。这些数据集非常适合评估基于检测的应用，如deepfake人脸检测、deepfake艺术品检测、通用图像检测等。请参阅表1以获取更详细的规范。像GTAV [217] 和NeRF-Synthetic [36] 这样的合成数据集通常被采用作为训练计算机视觉模型的数据来源。但是，它们的图像或视图是从3D图形引擎生成的，而不是神经图像合成。

**AIGS与AIGC

伴随着ChatGPT和Stable Diffusion的出现，AIGC的研究主题变得前所未有地受欢迎。AIGS与AIGC有强烈的相关性，因为它们都使用深度学习技术来生成新颖的内容。它们共同拥有的合成产品包括合成图像、合成特征[83]和合成噪声[203]等。尽管如此，AIGS的设计目的是使用这些合成产品作为下游应用的数据源，重点是计算机视觉任务，而AIGC旨在生产更广泛的创意作品，包括但不限于视觉内容、文本内容、音频内容等。他们之间的相关性可以从图11中详细查看。

结论

****这篇综述涵盖了AI生成图像作为数据源的主要方法。特别是，我们介绍了用于神经图像合成的模型，包括生成对抗网络、扩散模型和神经辐射场。在此之后，我们讨论了AIGS方法论，用于自动标签获取和数据集增强。此外，我们探讨了AIGS范例在激活各种应用方面的巨大潜力，如视觉感知和视觉生成任务、自监督学习、机器人技术以及自动驾驶。我们还对现有的合成数据集和AIGS评估指标进行了广泛的调查，并提供了表格化的总结和实验结果。最后但同样重要的是，我们提出了对当前AIGS的社会影响和开放性挑战的一些看法，这些看法得到了真实世界例子的支持。这篇综述表明，由于其在稀缺数据集的丰富化、隐私保护和风险预防、可扩展性和泛化性能方面的全面好处，AIGS的研究正在兴起。尽管仍存在挑战，但我们相信AIGS的潜力尚未被完全激活。未来AIGS方法论的研究和开发可以进一步加强AI生成数据的功能性和可靠性。

成为VIP会员查看完整内容