「多模态深度伪造及检测技术」最新2023研究综述

AIGC现在持续爆发，如何防范伪造内容是个关键技术问题？

随着各种深度学习生成模型在各领域的应用，生成的多媒体文件的真伪越来越难以辨别，深度伪造技术也因此得以诞生和发展. 深度伪造技术通过深度学习相关技术能够篡改视频或者图片中的人脸身份信息、表情和肢体动作，以及生成特定人物的虚假语音. 自 2018 年 Deepfakes 技术在社交网络上掀起换脸热潮开始，大量的深度伪造方法被提出，并展现了其在教育、娱乐等领域的潜在应用. 但同时深度伪造技术在社会舆论、司法刑侦等方面产生的负面影响也不容忽视. 因此有越来越多的对抗手段被提出用于防止深度伪造被不法分子所应用，如深度伪造的检测和水印. 首先，针对不同模态类型的深度伪造技术以及相应的检测技术，进行了回顾和总结，并根据研究目的和研究方法对现有的研究进行了分析和归类；其次，总结了近年研究中广泛使用的视频和音频数据集；最后，探讨了该领域未来发展面临的机遇和挑战.

1. 引言

随着深度学习技术的飞速发展以及在各个领域的广泛应用，深度学习技术在视频以及图片的伪造编辑方面的应用也逐渐被人熟知，从早年 ZAO APP 提供的低成本换脸视频编辑服务导致相关视频在视频社交网络上风靡一时，到现在其在教育，人机交互和艺术创作等领域中的广泛应用前景，深度伪造（deepfake）技术的应用在当前有一定的影响力，但是其具有不良目的的应用造成的负面影响远大于其积极影响. 2020 年 7 月，麻省理工学院发布了一条尼克松宣布登月失败演讲的深度伪造视频，在视频中尼克松的面部表情以及语音都得到了还原，内容可以做到以假乱真的效果. 一些恶意用户可能会利用相关技术伪造政客，明星等公众人物的虚假视频内容，从而扩散谣言，引导舆论由此获利，同时伪造的视频可能在刑侦取证方面造成阻碍. 由于其较为严重的负面影响，社会各界已经开始采取相应的防护对策. 为了防止针对政治人物的伪造视频对国家安全造成影响，各国政府已经开始促进相关行业标准和法律的制定. 同时，Youtube 和 Tiktok 等互联网公司也已经开始着手管制深度伪造视频，并举行了多次伪造视频检测比赛. 在学术界，研究者们针对深度伪造提出了适用于多种场景的大量检测技术，作为深度伪造的技术治理手段. 针对近年来出现的伪造技术和检测技术，本文阐述了其中具有代表性的技术，与现有的其他综述[1] 相比，更加系统地考虑了不同模态信息的深度伪造及检测技术，同时也介绍了深度伪造生成及检测模型的对抗攻击方法.

**1 技术背景 **

1.1 深度伪造生成技术

因为深度伪造生成的各种技术之间存在一定的共通性，因此本节对深度伪造生成技术的生成模型进行总结，并介绍深度伪造技术中人脸伪造技术和语音伪造技术的基本步骤

1.1.1 人脸伪造生成技术

针对人脸的深度伪造的生成技术一般包含 4 个步骤：1）使用人脸识别算法检测目标图片中的人脸；2）裁剪并预处理目标图片中的人脸；3）提取人脸中的身份和表情信息，并通过生成模型生成伪造人脸；4）将生成的人脸渲染到目标图像中人脸位置，重建图像.

1.1.2　语音伪造生成技术

针对语音模态的深度伪造技术一般需要音频和文字输入，用于指定目标语音的内容和音色. 语音伪造技术一般包含 4 个步骤：1）如果该方法接受文本输入，则将其编码；2）提取输入音频的梅尔倒谱系数（mel-frequency cepstral coefficients，MFCCs）；3）将预处理后的数据输入生成模型，得到目标语音的帧级语音特征；4）通过声码器等方式得到目标语音

1.2　深度伪造分类

目前深度伪造在多媒体文件的合成和篡改中主要是针对在图片和视频中的面部和肢体动作的篡改以及语音方面的修改. 面部篡改主要分为 2 类：1）使用源图片人物身份替换目标图片人物身份的方法，主要包括面部替换和面部转换 2 种；2）保留目标图片人物身份的方法，包括面部重现和面部特征编辑. 以下分别对这 4 种分类进行介绍.1）面部替换（face swap）. 通过将源图片的人脸身份信息注入目标图片完成换脸，同时保留目标图片中的表情动作和背景等信息. 2）面部转换（face transfer）. 将目标图片中的人脸完全替换为源图片的人脸，包含身份信息、表情动作和面部朝向等. 3）面部重现（face reenactment）. 不改变目标图片中的人脸身份，将源图片中的人脸表情动作在目标图片上重现. 重现的部分包括表情、嘴型，面部朝向甚至是肢体动作. 4）面部特征编辑（face edit）. 不改变人脸身份信息，对人脸中的部分特征属性进行篡改，如发色、性别、是否佩戴眼镜等. 语音方面的深度伪造任务主要分为语音转换和语音合成 2 类. 1）语音转换（voice conversion）. 转变输入音频的音色到目标人物的音色. 2）语音合成（text to speech）. 根据输入文本，输出相应音频.

1.3　深度伪造检测技术

1）卷积神经网络（convolutional neural network， CNN）. 卷积神经网络除了在风格迁移方面的应用，更多的用于图像分类和目标检测中. 卷积神经网络在传统全连接网络的基础上主要增加了卷积层和池化层. 后续出现的卷积神经网络架构有 DenseNet[9] ， ResNet[10] 和基于深度可分离卷积层的 Xception[11] 等，而 XceptionNet[12] 也是深度伪造检测中常用的基础方法. 2）循环神经网络（recurrent neural network，RNN）. 循环神经网络常用于处理时间序列性的信息，相比一般的前馈神经网络，循环神经网络能更好地处理序列变化的数据，并记录过去状态对当前状态的影响. 长短期记忆网络（long short-term memory，LSTM）是一种特殊的循环神经网络，包含 2 种传递状态，能够更好地解决循环神经网络的梯度消失和梯度爆炸问题.

2 图像和视频伪造生成技术

现有的视频和图片的深度伪造技术主要是针对人脸信息或表情动作的篡改，也有部分工作可以重现人物的肢体动作. 本节对人脸和身体的主流图像伪造手段进行分类阐述，并简要介绍其发展历程.

2.1 面部替换伪造

传统的面部替换主要是基于图形学的伪造，通过 3D 人脸模型的重建以及追踪等技术实现人脸的替换. 近十年的图形学图片人脸替换方法逐步实现了全自动，kevin[13] 用 3D 多线性模型追踪原视频和目标视频的面部表现，使用相应的 3D 图形将源视频匹配到目标视频中实现自动化人脸替换. 近年来，随着深度学习的迅猛发展，基于深度学习的换脸技术的时间成本和门槛逐渐降低，以深度学习为基础的面部替换技术得到了更广泛的应用，也推动了面部替换方法的研究. 早期的面部替换技术主要基于自动编码器. Deepfakes[14] 是一种被 reddit 用户使用的深度伪造换脸工具，基于自动编码器，包含 1 个编码器和 2 个解码器，组成 2 个自动编码网络，分别用源人物和目标人物的面部图片同时训练，以实现解码器分别重现人脸的能力. 在换脸过程中交换编码器，实现在目标人物的图片编码中提取出源人物的人脸. Fast Face-swap[15] 是一种基于 CNN 的风格转换网络的换脸方法，通过神经网络标注人脸特征点，实现背景分割和人脸对齐，采用 texture networks[16] 的卷积神经网络结构实现风格迁移任务.除了自动编码器，GAN 等生成模型也被应用到面部替换中，极大提高了生成图片的图像质量. FaceswapGAN[17] 是 Deepfakes 融入 GAN 的产物，引入了去噪自动编码器和面部交换注意力机制，提高了图片的真实程度，同时通过生成分割掩码解决图像的遮盖问题. Natsume 等人[18] 使用 VAE-GAN 网络结构，引入 3 重损失函数验证身份信息损失，实现了较为稳定的人脸替换. 之后该团队提出了人脸替换和人脸面部特征编辑的集成系统 RSGAN[19] ，使用 2 个自动编码器在隐空间中分别表示头发区域和面部区域，通过替换面部的隐空间表示来实现换脸并重建整个人脸图像，能够解决之前换脸方法如 3D 变形人脸模型的人脸朝向和光照不匹配等问题. FSGAN[20] 通过基于 RNN 的方法将目标人脸的表情和面部动作重现给源人脸，实现了较好的泛化能力，并覆盖了表情迁移和身份替换 2 个任务，可以使用较少的样本进行训练. Li 等人[21] 提出了一种新的 2 阶段的换脸方法 Faceshifter，其模型结构如图 2，在解码器中自适应注意力去正化（AAD）、自适应地集成人脸合成的特征和属性，同时在第 2 阶段引入了启发式的错误承认细化网络（HEAR-Net），以自监督的方式解决面部遮挡问题. Simswap[22] 使用身份注入模块解除身份限制，并在损失函数中引入弱特征匹配损失.随着小样本学习的方法的不断出现，为了解决训练样本难以获得的问题，MegaFS[23] 通过分层表征人脸编码器提取更多人脸特征，并在不经过特征解耦的情况下非线性地将身份信息从源图像迁移到目标图像. 同时由于 MegaFS 可以分模块训练，可以适用于百万像素级图片的面部伪造. 类似的小样本学习和单样本学习的应用可以降低深度伪造的应用门槛，提升相关工具的易用性.

2.2　面部转换

相较于面部替换，面部转换不保留目标图片的表情和面部动作信息，因此在伪造方面的灵活性较低. 早期的面部转换主要采用面部可变形模型实现[24-25] . 也有少量面部转换使用了深度学习模型，DepthNet[26] 是一种根据检测源图像中人脸关键点深度来构建 3D 人脸模型，并使用孪生神经网络将其映射到目标图像的 2D 标志点模型的无监督方法. 该方法对于输入图像中的遮挡部分较为敏感.

2.3　面部重现

面部重现相较于面部替换可以更加自由地将指定的面部动作迁移到特定身份的人脸中，因此对于公众人物的攻击更具威胁性. 本节将主流的面部重现技术分为面部表情重现和嘴部动作驱动 2 类，并分类阐述其相关技术.

2.4　面部特征编辑

面部特征编辑是较为传统的伪造类型，一些较为常用的基于 GAN 的图像处理方法，如 StyleGan[65-67] 和 CycleGAN[8] 都可以用于编辑面部特征. StarGAN[68]和 StarGAN v2[69] 具有在多个图像域之间转换的能力，具有更好的可扩展性. 其他的面部特征编辑工作有如 Sanchez 等人[70] 提出了一种用于 GAN 人脸编辑的 3 重连续性损失函数，并提出了一个直接编辑人脸表情的合成方法 GANnotation. Kim 等人[71] 在 CycleGAN 的循环一致性损失函数的基础上提出了 CAM 一致性损失函数，使得模型能够更好地保留与特征无关位置的信息，并将其应用在 StarGAN 等现有生成模型上. Li 等人[72] 为了解决人脸特征编辑的扩展性和多样性问题，提出了一种层次结构模型（hierarchical style disentanglement，HiSD），将人脸的特征建模成标签和属性，并通过无监督的方法将其解耦，实现针对目标属性更加精准的篡改. 随着如 StyleGan3[67] 这样的大型模型的提出，面部特征编辑任务得以向着更注重细节纹理的方向发展.

2.5　人体动作伪造

部分深度伪造生成技术研究将源人物的肢体动作迁移到目标人物身上. Aberman 等人[73] 提出了一种视频动作克隆技术，分别使用成对训练数据和非成对训练数据训练同一个生成网络，分别训练其根据指定动作生成静态帧，和将动作转换成时序连续的帧序列的能力. Everybody Dance Now[74] 是一种基于视频转换的动作迁移方法，使用动作探测器检测输入视频中的人物动作骨架图，再通过基于 pix2pix 的 GAN 网络将其映射为目标人物的动作帧. 在训练过程中，要将生成视频和动作骨架图的连续 2 帧输入到 GAN 的判别器中，从而保证视频的时序连贯. 该方法还包括一个针对面部的 pix2pix 网络，通过动作骨架和生成视频帧的人脸区域预测残差，增加伪造结果面部的细节和真实性. Liu 等人[75] 对目标人物进行 3D 建模，从源人物视频中提取动作骨架，将其渲染到目标人物的 3D 模型中，最后根据条件性 GAN 得到预测结果. 该方法的损失函数计算用到了注意力图谱的加权方法，促进 GAN 注重于包含更多未学习特征的区域，使得该方法在生成结果真实性和性能方面具有提升. Monkey-Net[34] 除了重现面部表情，更多利用在肢体动作的驱动.

**3 语音伪造技术 **

**3.1　语音生成技术 **语音生成技术的实现主要基于 2 种方法：波形拼接和统计参数. 其中波形拼接方法是早期常用方法，首先分析文本以及韵律，再进行波形拼接. 虽然其使用了自然语音波形，可以合成出高自然度的合成语音，但是对于不同领域的文本合成稳定性不强，在任意文本的语音合成中表现不佳. 统计参数方法可以分为基于隐马尔可夫模型（hidden Markov model， HMM）的早期方法以及基于神经网络的深度学习方法. 基于隐马尔可夫模型的方法的相关工作可以参考文献 [76]. 而基于深度学习的语音生成方法建模更加精确，统计参数更加平滑，近年来随着神经网络相关技术的发展其得到了更广泛的应用. 基于深度学习的语音合成主要可以分为管道式和端到端式. 其中传统的语音合成工作一般是管道式，需要对整个合成过程中的各个模块分别建模，使用多个模型流水线式地处理文本特征分析，声学特征分析和声音波形预测等任务.端到端式语音合成较管道式语音合成相比不需要另外提取文本特征，可以直接输入未处理文本，得到接近自然人物声音的合成结果. WaveNet[77] 是一种早期的端到端的语音合成器，使用扩展因果卷积（dilated causal convolutional layers），直接对采样值序列的映射进行学习，达到较好的语音合成效果，但由于 WaveNet 的输入是处理过的特征，并不是严格的端到端模型，因此目前一般作为声码器应用在音频伪造方法中. 其他的端到端的语音合成模型还有 Tacotron[78] ，Tacotron2[79] ， char2wav[57] 等. Tacotron 使用一个包含一维卷积、高速网络、残差连接和双向 GRU 的 CBHG 模块提取输入文本的高层次特征，并用注意力解码器和输出解码器，分别生成语境向量和输出声谱. Tacotron2 对 Tacotron 中生成最后波形的 Griffin-Lim 算法优化成了深度学习模型，并使伪造结果更加接近自然人声，其系统结构如图 3 所示. char2wav[57] 包含阅读器和声码器，阅读器中的编码器是双向循环神经网络，用于提取文本特征；解码器是带有注意力机制的循环神经网络，用于生成声码器输入的声学特征. Fu 等人[80] 在基于 Tacotron 的端到端语音合成模型的基础上，针对声学特征可能与文本不完全对齐的情况，提出了待反馈机制的时常控制器辅助注意力机制调整音素，并使用一个自适应的优化算法用于识别标注效果较差的样本. MelGAN[81] 是首个使用生成对抗网络生成语音的模型，与 WaveNet 等自回归的语音模型相比具有较快的速度，其改进模型[82] 通过在合成中采用重构滤波器组合多个子频段的合成结果，简化了上采样层中的参数量，并引入了基于快速傅里叶变换的损失函数加速训练. 语音生成技术的不断成熟，促进了其在人机交互等领域的应用，但也使其能更容易地参与伪造视频的制作.

3.2　语音转换技术

语音转换技术使用的模型可以分为统计模型和深度学习模型. 利用统计模型的语音转换任务一般可以通过其训练的数据类型分为使用并行训练数据和非并行数据. 与语音生成技术相似，语音转换技术近年来的技术趋势也在由统计模型向深度学习转变，一些基于 GAN 的生成模型如 CycleGAN 和 StarGAN 也被应用到语音转换领域. CycleGAN-VC[83] 在 CycleGAN 的基础上使用门控 CNN 提取连续性和层次性特征，并引入身份映射损失函数防止语义信息的流失.

4 深度伪造检测技术

随着深度伪造生成技术的不断发展，网络上各种相关的开源工具以及商用软件层出不穷，对司法和隐私等领域造成了严重的威胁. 为了应对深度伪造生成技术的负面影响，近年来有关深度伪造的对抗策略的研究也逐渐增多. 本节依次对图像以及音频伪造检测的主流方法进行分类介绍.

4.1　图像与视频伪造检测

根据是否针对特定的伪造痕迹进行检测，深度伪造检测可以分为数据驱动的检测方法和针对特定伪造痕迹取证的检测方法. 表 1 对近年来主流的图像和视频伪造检测方法的特点和性能等进行了总结.

4.3　语音伪造检测

随着各种语音深度伪造模型的伪造水平不断提升，现有的技术已经可以较好地模拟目标人物的音调音色，甚至配合视觉深度伪造模型生成一个完整的伪造视频，相应地，音频的深度伪造检测工作也逐渐受到了更多研究者的关注. 语音深度伪造检测一般分为前端和后端，分别从音频中提取声学特征，以及利用高斯混合模型、神经网络等分类模型根据声学特征对目标音频进行分类. 部分研究者选择从声学特征的角度开始研究，Patel 等人[154] 在 ASVspoof2015 竞赛中基于耳蜗过滤器倒谱系数（cochlear filter cepstral coefficients，CFCC）和瞬时频率（instantaneous frequency， IF）提出了新的声学特征 CFCCIF，获得了第 1 名，并在论文中提出了更新的特征 CFCCIFS. Tom 等人 [155] 提出了群体延迟图（GDgram）作为重放检测的判断依据，分别将 GD-gram 和使用注意力遮罩的 GD-gram 输入 ResNet-18 得到判断结果. Das 等人[156] 提出了 2 种用于检测模型前端的声学特征 eCQCC 和 CQSPIC. 其他的研究者更注重于分类模型. Lavrentyeva 等人 [157] 在 ASVspoof 2017 比赛中针对录音重放挑战提出了一种基于轻量级 CNN 检测的方法，该方法的前端基于赛事举办方提出的常数 Q 变换倒谱系数（CQCC）提取系统，通过常数 Q 变换和快速傅里叶变换得到归一化对数功率谱，将其输入到轻量级 CNN[158] 或者 CNN 和双向 RNN 的串联网络中. 同样采用轻量级 CNN 的有参加了 ASVspooof 2019 比赛的 Lavrentyeva 等人[159] . Ravanelli 等人[127] 提出了基于 CNN 的 SincNet 直接对音频进行处理，与标准 CNN 不同，SincNet 的第 1 层使用了预定义的滤波函数，仅有少量几个参数可以从数据中学习，这大幅度减少了网络中的可训练参数数量. Cai 等人[160] 提出了一种语音级的神经网络框架，并使用了多种声学特征表示作为模型的输入进行实验. 在 ASVspooof 2019 比赛中，Lai 等人[161] 提出了一种基于残差网络和挤压刺激网络（squeeze excitation network，SENet）的检测方法，挖掘不同通道之间的关系，使其关注更具判别性的特征图. 该作者考虑了对数功率频谱和 CQCC2 种声学特征，使用统一特征图或整条语句的方式将其输入到神经网络模型中. 与其类似的有 Parasu 等人[162] 提出的轻量级残差网络模型. Ma 等人[163] 使用基于规范化方法的持续学习，在损失函数中添加了 LwF[164] 约束和正样本对其约束，其模型结构采用类似于文献 [159] 的轻量级卷积神经网络.

总结

随着深度学习在图片处理领域应用的不断成熟，各种针对人脸等部位的伪造技术层出不穷，使得相关技术在教育和娱乐等领域得到广泛应用的同时，也对现有的检测技术产生了巨大的挑战. 虽然并非所有的深度伪造的出发点都是恶意篡改，但我们目前还无法预估相关技术被不法分子利用后产生的不良影响，因此我们也迫切需要相关法律的制定或者完善检测体系的构建，以促使深度伪造相关技术能在更多场景合法应用. 总结了近些年来深度伪造及其检测的主流技术，并对其进行了分类探讨. 同时还总结了目前常用的深度伪造视频及音频数据集，并分析了深度伪造及检测的技术难点和未来发展方向. 我们希望通过这篇文章能让更多人了解深度伪造相关技术，防止其产生不良的社会影响，并促进其在更多领域的合法应用.

成为VIP会员查看完整内容