生成式AI时代的深伪媒体生成与检测：综述与展望

摘要—随着生成建模技术的最新进展，深伪内容的真实感不断提高，甚至达到了一个人们常常无法在线识别被篡改的媒体内容的程度，从而导致各种类型的欺诈行为。在本文中，我们对深伪生成与检测技术进行了综述，包括该领域的最新发展，如扩散模型和神经辐射场。我们的文献综述涵盖了所有类型的深伪媒体，包括图像、视频、音频和多模态（视听）内容。我们根据修改或生成虚假内容的过程，识别了不同种类的深伪。进一步地，我们构建了一个深伪生成与检测方法的分类体系，阐述了重要方法的类别及其应用领域。接着，我们收集了用于深伪检测的数据集，并提供了在最受欢迎数据集上表现最佳的深伪检测器的最新排名。此外，我们开发了一个新的多模态基准，旨在评估深伪检测器在分布外内容上的表现。结果表明，最先进的检测器未能在未见过的深伪生成器生成的深伪内容上进行有效推广。最后，我们提出了获取稳健且强大的深伪检测器的未来方向。我们的项目页面和新的基准已发布在 https://github.com/CroitoruAlin/biodeep。

关键词—深伪，深伪生成，深伪检测，深伪基准。

1 引言

深伪媒体包括通过人工智能工具对图像、视频或音频文件进行数字化篡改或从头生成的内容，以伪装成真实或虚构的人物。生成式AI方法的最新突破性进展[1]–[6]使得生成逼真的深伪媒体变得异常简单[7]–[18]。不幸的是，生成的深伪媒体可能被诈骗者利用，在社交媒体平台上传播虚假信息，进行大规模的政治操控，并欺骗个人或公司进行金融诈骗。

在信息可以通过社交媒体平台迅速传播的时代，深伪构成了对公众信任和民主的严重威胁，尤其是在其在线滥用不断增长的情况下。近期的欺诈趋势分析表明，基于深伪的诈骗案件在2023年比2022年增加了10倍1。另一项研究发现，大约70%的人无法区分真实和深伪声音2。深伪的质量和数量的不断提升引发了严重关注，特别是关于在线诈骗和操控的问题。为了防止深伪媒体的传播，研究人员开发了广泛的单模态[19]–[23]或多模态[24]–[26]深伪检测方法。然而，基于某一组AI工具生成的媒体训练出来的深伪检测器，通常在使用不同工具生成的深伪上表现不佳[20]–[22]。这导致了开发更强大且稳健的深伪检测器的无休止竞争。

为此，我们对深伪媒体生成与检测领域的最新发展进行了全面综述。我们首先定义了一组深伪类别，这些类别是根据生成深伪内容所使用的过程来确定的。我们识别了领域无关和领域特定的深伪类型，并解释了每一类别中属于哪种深伪媒体。接下来，我们构建了深伪生成和检测方法的分类体系，基于所考虑的媒体类型、所使用的架构和所针对的任务，创建了一个多角度的分层分类。如图1所示，我们首先按任务将贡献分为生成和检测。对于每个任务，我们识别了所采用的架构。对于深伪生成，我们发现最流行的架构是生成对抗网络（GANs）[8]，[14]–[16]，[27]，[28]和去噪扩散模型[11]–[13]，[18]，[29]–[31]。在深伪检测方面，大多数方法基于卷积神经网络（CNNs）[19]，[21]，[24]，[25]，变压器（transformers）[32]–[34]，或者是将CNN与变压器[35]–[37]或递归神经网络（RNNs）[38]，[39]结合的混合架构。对于每种架构，我们进一步根据媒体类型（图像、视频、音频或多模态（视听））对贡献进行了划分。接下来，我们呈现了在分类体系中每个类别的主要贡献。我们还回顾了图像、视频和音频中用于深伪检测的现有数据集。然后，我们汇总了深伪检测器在最受欢迎数据集上的报告性能，便于直接比较现有方法。此外，我们介绍了一个基准，旨在测试深伪检测器在分布外内容上的泛化能力。有趣的是，我们发现最先进的深伪检测器在新型更强大的生成模型生成的逼真深伪内容上表现较差。最后，我们识别了当前文献中的研究空白，并提出了一系列未来研究方向，旨在开发更好的框架以检测深伪媒体。

总结来说，我们的贡献有四个方面： * 我们对深伪生成与检测方法进行了全面的综述，涵盖了图像、视频、音频和多模态四个领域的最新进展。 * 我们构建了深伪生成与检测方法的分类体系，根据任务、架构和媒体类型对研究文章进行了分类。 * 我们收集并汇总了在流行的深伪检测基准上报告的结果，提供了便于评估深伪检测器当前性能水平的手段。 * 我们介绍了一个基准，旨在测试深伪检测模型的领域外泛化能力，显示当前检测器在新一代强大生成器生成的深伪内容上普遍存在较大的性能下降。