从奥巴马假视频到ZAO，换脸和人脸检测技术发生了什么？

会员服务 ·

从奥巴马假视频到ZAO，换脸和人脸检测技术发生了什么？

2020 年 1 月 21 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转载自：机器之心 | 参与：Panda、蛋酱

作者： Ajinkya Khalwadekar

这是一篇不错的人脸操纵和检测技术综述文章，结构和逻辑清晰。机器之心进行了摘要编译，希望能够帮助大家一览该领域的发展过程。

论文地址：https://arxiv.org/pdf/2001.00179v1.pdf

大规模公共数据集的免费获取和深度学习技术（尤其是 GAN）的快速发展，导致以假乱真的内容大量出现。在假新闻时代，这些伪造内容对社会产生了一定的影响。

本文对人脸图像操纵技术进行了全面的综述，包括 DeepFake 方法以及检测此类操纵技术的方法。具体而言，本文综述了四种人脸操纵类型：整张人脸的合成、换脸（DeepFake）、人脸属性操纵和人脸表情操纵。

对于每种人脸操纵类型，本文详细介绍了其相关的人脸操纵技术、现有的公共数据库，以及用于评估人脸操纵检测方法的重要基准，包括对这些评估结果的总结。

在本文提及的多个可用数据库中，FaceForensics++ 是最常用于检测人脸身份转换（即「换脸」）和人脸表情操纵的数据库之一，基于该数据集的操纵检测准确率在 90-100% 范围内。

此外，本文还讨论了该领域的发展趋势，并对正在进行的工作进行了展望，如近期宣布的 DeepFake 检测挑战赛（DFDC）。

引言

近期，通过数字操纵（尤其是 DeepFake 方法）生成包含人脸信息的假图像和假视频，已成为公众关注焦点。

「DeepFake」是一项基于深度学习的技术，通过把图像或视频中的人脸换成另一个人的脸，来创建假图像/视频。

该词最早出现于 2017 年底，一位名为「deepfakes」的 Reddit 用户开发了一种机器学习算法，该算法可将名人的人脸换到色情视频中。除了伪造的色情作品以外，还有一些杀伤力更强的假内容应用方式，比如假新闻、金融诈骗等。

因此，原本专注于通用假图像和假视频检测的研究领域重新焕发了生机，转而将更多的精力放在如何检测图像和视频中的人脸操纵上。研究者对人脸操纵检测领域的诸多努力是基于有关生物特征识别反欺骗的先前研究和数据驱动的现代深度学习技术展开的。学术顶会上相关研讨会的数量越来越多，NIST 和 Facebook 又分别主办了 MFC2018 和 DFDC 等竞赛，这些都表明社区对假人脸检测的兴趣不断增长。

之前，因缺乏复杂编辑工具和领域专业知识、操作过程复杂且耗时，人脸操纵的数量和逼真度受到了局限。例如，该领域的早期研究《Video Rewrite: Driving Visual Speech with Audio》利用不同的音轨修改说话人的嘴唇运动（具体是通过将音轨的声音和说话人的人脸形状连接起来实现的）。

而现在，自动合成并不存在的人脸或者操纵图像或视频中的真实人脸变得更加容易，这取决于以下几个因素：1）大型公共数据的可获取；2）深度学习技术的进化（这免除了人工编辑步骤）。

《Synthesizing Obama: Learning Lip Sync From Audio》展示了之前技术的进化版，该研究生成了高质量的奥巴马演讲视频，目标视频中奥巴马原本的发言已被改变。

现在，最逼真的人脸操纵技术已经取代了上述研究所使用的方法，它们将 CNN 与 GAN 结合起来。因此，ZAO 和 FaceApp 等开源移动应用的发布，使得任何人都可以创建假图像和假视频。研究社区对这些日益复杂和逼真的操纵内容作出了回应，目前他们正付出巨大努力来改进人脸操纵检测方法。

本文对人脸操纵及检测技术进行了综述，首先我们来看人脸操纵的类型。

人脸操纵的类型

根据操纵的级别，人脸操纵技术可分为四类：人脸合成、换脸、人脸属性操纵和人脸表情操纵，参见下图 1：

图 1：每个人脸操纵类别的真假图像示例。

接下来我们按照从高级到低级的顺序，介绍这四种人脸操纵类型：

人脸合成：通常利用强大的 GAN（如近期的 StyleGAN 方法）创建完全不存在的人脸。这些技术获得了惊人的结果，其生成的高质量人脸图像栩栩如生。图 1 展示的人脸合成样本即通过 StyleGAN 生成；
换脸：即将一个人的脸换成另一个人的脸。该领域通常采用两种不同的方法：1）经典的计算机图形学技术，如 FaceSwap；2）新型深度学习技术 DeepFake，如近期的移动应用 ZAO；
人脸属性操纵：即修改人脸的某些属性，如发色、肤色、性别、年龄、是否戴眼镜等。该操纵过程通常使用 GAN 完成，如 StarGAN。该类型的典型示例是流行的移动应用 FaceApp；
人脸表情操纵：即修改人脸表情，如将一个人的面部表情迁移到另一个脸上。最流行的技术之一是 Face2Face，该技术可实时进行。近期方法展现出巨大潜力，可以生成高质量的视频，上述视频中人物（如奥巴马）的发言已被改变。

人脸合成

相关的操纵技术和公共数据库

下表 1 总结了人脸合成研究中主要使用的公共数据库。必须强调的是这些数据库中不包含真实人脸图像样本。该领域研究者通常使用常见公共数据库中的真实人脸图像来训练系统，如 CelebA [23]、FFHQ [19]、CASIA-WebFace [24] 和 VGGFace2 [25]。

表 1：人脸合成领域的公共可用数据库。

这部分介绍的相关操纵技术是 StyleGAN 和 ProGAN，此处不再赘述，读者可参考以下文章：

英伟达再出 GAN 神作！多层次特征的风格迁移人脸生成器

NVIDIA 新作解读：用 GAN 生成前所未有的高清图像（附 PyTorch 复现）| PaperDaily #15

操纵检测

近期多项研究评估了检测人脸合成操纵的难度。下表 2 对比了该领域中最相关的方法。每项研究包含特征、分类器、最优性能和数据库这些信息。

表 2：人脸合成领域中，不同当前最优检测方法的对比情况。粗体字表示每个公共数据库上的最优结果。斜体字表示原始研究中未提供此结果。AUC 表示曲线下面积，Acc. 表示准确率，EER 表示等误差率。

换脸

相关的操纵技术和公共数据库

「换脸」是目前最流行的人脸操纵技术之一。与仅考虑图像的人脸合成操纵不同，换脸通常涉及视频的真伪。下表 3 总结了这类人脸操纵技术目前可用的公共数据库。我们可以看到，数据库中通常包含真假视频。其中最常用的数据库是 FaceForensics++。

表 3：换脸领域中的公共可用数据库。

如上表所示，这部分介绍的操纵技术包括 faceswap-GAN、FaceSwap、DeepFake 等。以下是部分方法的 GitHub 地址：

faceswap-GAN：https://github.com/shaoanlu/faceswap-GAN
FaceSwap：https://github.com/MarekKowalski/FaceSwap
DeepFake：https://github.com/deepfakes/faceswap

操纵检测

检测换脸操纵的新方法在不断进化，成为研究最广泛的人脸操纵类型之一。下表 4 对比了该领域中最相关的检测方法。每项研究包含特征、分类器、最优性能和数据库这些信息。

表 4： 换脸领域中，不同当前最优检测方法的对比。 粗体字表示每个公共数据库上的最优结果，斜体字表示原始研究中未提供此结果。 FF++ 表示 FaceForensics++ 数据集，AUC 表示曲线下面积，Acc. 表示准确率，EER 表示等误差率。

人脸属性操纵

相关操纵技术和公共数据库

尽管基于 GAN 的框架在通用图像转换和操纵方面取得了巨大成功，但具体到人脸属性操纵领域，却几乎没有公开可用的数据库。其主要原因在于大部分 GAN 方法的代码已开源，研究者可以基于开源代码轻松生成想要的假图像数据库。本文作者表示，目前人脸属性操纵领域的公共数据库只有 DFFD [7]，该数据库包含由 FaceApp 和 StarGAN 方法分别生成的 18,416 和 79,960 张假图像。

这部分按照从远到近的顺序介绍该领域的 GAN 方法，并提供了 GitHub 地址，如下所示：

Invertible Conditional GANs (IcGANs)：https://github.com/Guim3/IcGAN
Fader Networks：https://github.com/facebookresearch/FaderNetworks
StarGAN：https://github.com/yunjey/stargan/blob/master/README.md
attGAN：https://github.com/LynnHo/AttGAN-Tensorflow
STGAN：https://github.com/csmliu/STGAN

操纵检测

人脸属性操纵最初是人脸识别领域的研究课题，旨在查看生物识别系统对物理因素（如整形、化妆或遮挡）的稳健性。但是，近期 FaceApp 等移动应用的成功改变了这种情况。它促使研究社区转而研究对人脸属性操纵的检测技术。

下表 5 对比了该领域中最相关的方法。每项研究包含特征、分类器、最优性能和数据库这些信息。

表 5： 人脸属性操纵领域中，不同当前最优检测方法的对比。 粗体字表示每个公共数据库上的最优结果。 AUC 表示曲线下面积，Acc. 表示准确率，EER 表示等误差率。

人脸表情操纵

相关操纵技术和公共数据库

目前人脸表情操纵领域唯一可用的公共数据库是 FaceForensics++，它基于 FaceForensics 扩展而成。

这部分介绍了 Face2Face、NeuralTextures、InterFaceGAN、UGAN、STGAN、AttGAN 等人脸表情操纵技术，详情参见原论文。

操纵检测

《Synthesizing Obama: Learning Lip Sync From Audio》促进研究者开发针对人脸表情操纵的新型检测技术。该研究展示了技术如何合成高质量的人物视频（该案例中人物是奥巴马），并改变视频中人物的发言内容。该研究令人震惊的结果促使研究社区开发稳健的检测技术。

下表 6 对比了该领域中最相关的方法。每项研究包含特征、分类器、最优性能和数据库这些信息。

表 6： 人脸表情操纵领域中，不同当前最优检测方法的对比。 粗体字表示每个公共数据库上的最优结果。 FF++ 表示 FaceForensics++ 数据集，AUC 表示曲线下面积，Acc. 表示准确率，EER 表示等误差率。

GAN 在图像和视频合成领域的结果频频令人震惊，让我们不由感叹了解 GAN 方法的速度赶不上它们出现的速度。想要追踪更多 GAN 方法，可以参观 GAN Zoo：https://github.com/hindupuravinash/the-gan-zoo。

重磅！CVer-人脸检测交流群已成立

扫码可添加CVer助手，可申请加入CVer大群和细分方向群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索等群。

一定要备注：研究方向+地点+学校/公司+昵称（如人脸检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群