深度伪造生成与检测：基准测试和综述

深度伪造技术致力于在特定条件下创建高度真实的面部图像和视频，如身份感知的面部交换和音频引导的说话面部生成。这项技术在娱乐、电影制作、数字人类创建等领域具有重大的应用潜力。随着深度学习的进步，主要由变分自编码器（VAEs）和生成对抗网络（GANs）代表的技术已经取得了令人印象深刻的生成结果。最近，具有强大图像生成能力的扩散模型的出现，再次激发了对这项技术的研究和工业界的兴趣。除了深度伪造生成技术的进步外，相应的检测技术也需要不断发展，以规范深度伪造的潜在滥用，如侵犯隐私和网络钓鱼攻击。这篇综述全面回顾了深度伪造生成与检测的最新发展，总结并分析了这一迅速发展领域的当前技术水平。我们首先统一任务定义，全面介绍数据集和评估指标，并讨论生成与检测技术框架的发展。然后，我们讨论了几个相关子领域的发展，并重点研究四个主流的深度伪造领域：流行的面部交换、面部再现、说话面部生成和面部属性编辑，以及外来检测。随后，我们在各个领域的流行数据集上全面基准测试了代表性方法，全面评估了在顶级会议/期刊上发布的最新和有影响力的工作。最后，我们分析了讨论领域的挑战和未来研究方向。我们密切关注这个项目的最新发展。

人工智能生成内容（AIGC）近年来在学术界和工业界引起了广泛关注。深度伪造生成作为生成领域中的一项重要技术，因其能够创造高度真实的面部媒体内容而受到了显著关注。这项技术已经从传统的基于图形的方法过渡到基于深度学习的方法。早期方法采用了高级的变分自编码器（VAEs）和生成对抗网络（GANs）技术，实现了看似真实的图像生成，但其性能仍不令人满意，限制了实际应用。最近，扩散结构大大增强了图像/视频的生成能力。受益于这一新研究浪潮，深度伪造技术让我们看到了其在实际应用中的潜在价值，并且能够生成与真实内容无法区分的内容，这进一步吸引了我们的注意，并被广泛应用于多个领域，包括娱乐、电影制作、在线直播、虚拟会议、隐私保护的新见解等。深度伪造生成通常可以分为四个主流研究领域：1）面部交换，专注于执行两个人物图像之间的身份交换；2）面部再现，强调转移源动作和姿势；3）说话面部生成，专注于在角色生成中实现口部动作与文本内容的自然匹配；4）面部属性编辑，旨在修改目标图像的特定面部属性。相关基础技术的发展已逐渐从单一前向GAN模型转变为具有更高质量生成能力的多步骤扩散模型，生成的内容也逐渐从单帧图像过渡到时域视频建模。此外，NeRF频繁被融入建模以提高多视图一致性能力。

在享受这项技术的新奇性和便利性的同时，其不道德的使用引发了对隐私侵犯、假新闻传播和网络钓鱼攻击传播的担忧，这需要开发有效的外来检测方法，即深度伪造检测。从最早的基于手工特征的方法到基于深度学习的方法，再到最近的混合检测技术，伪造检测技术随着生成技术的发展而经历了实质性的技术进步。数据模态也从空间和频率域转变为更具挑战性的时域。考虑到当前生成技术具有显著更高的兴趣水平，发展速度更快，并且能生成与现实无法区分的内容，相应的检测技术需要持续进化。

总体而言，尽管在两个方向上都取得了显著进展，但它们仍在特定场景中展示出挑战性的限制，主要反映在模型的视觉感知真实性和生成精度上。这吸引了大量研究者继续努力，并激发了对工业应用的思考。现有的综述作品仅关注部分深度伪造领域，并缺乏对新技术的讨论，特别是基于扩散的图像/视频生成方法，因为它们与当前技术脱节。该综述将全面讨论这些领域及相关子领域，并追踪最新作品。

• 贡献。在这篇综述中，我们全面探讨了深度伪造生成和外来检测的关键技术和最新进展。我们首先统一任务定义，提供数据集和评估指标的全面比较，并讨论相关技术的发展。具体而言，我们研究了四个主流的深度伪造领域：面部交换、面部再现、说话面部生成和面部属性编辑（主要是多重编辑），以及外来检测。我们还分析了每个领域的基准和设置，全面评估了在顶级会议/期刊上发布的最新和有影响力的作品，特别是最近基于扩散的方法。此外，我们讨论了密切相关的领域，包括头部交换、面部超分辨率、面部重建、面部修补、身体动画、肖像风格转移、化妆转移和对抗样本检测。受当前AIGC的流行影响，深度伪造领域的研究迭代周期已大大缩短，我们将持续更新并讨论修订版本中的提交作品。

• 范围。这项综述主要关注主流的面部相关任务，包括面部交换、面部再现、说话面部生成、面部（多重）属性编辑和外来检测。我们还在第2.4节中覆盖了一些相关领域任务，并在第3.3节详细介绍了特定的热门子任务。考虑到大量的文章（包括已发布和预印本），我们主要包括具有代表性和引人注目的作品。此外，我们将这项调查与最近的综述作品进行比较。Sha等人仅讨论了角色生成，而我们涵盖了更广泛的任务范围。与文献相比，我们的研究包括了更广泛的技术模型范围，特别是更强大的基于扩散的方法。此外，我们彻底讨论了深度伪造生成和检测的相关子领域。

• 综述流程。图1展示了本综述的流程。第2节提供了包含任务特定定义、数据集、评估指标以及探索相关研究领域的基本背景知识。第3节从技术分类和演化的角度，审查了四个最受欢迎的深度伪造任务，并且我们细致地分类和讨论外来检测技术，强调涉及的技术路线。随后，第4节组织并评估了各种方法的性能，进行彻底和公平的性能比较。第5节聚焦于对现有技术中持续存在的挑战的批判性回顾，概述了可行的未来发展方向。最后，我们通过第6节中的全面总结，封装了整篇文章的全部内容。