演技差靠换脸?迪士尼开发百万像素换脸新技术,或将用于大荧幕

2020 年 6 月 30 日 机器之心

选自arXiv

作者:J. Naruniec 等

机器之心编译

参与:小舟、杜伟、魔王

迪士尼新研究实现百万像素图像和视频换脸,说不定未来大荧幕电影也会使用换脸技术了。



deepfakes 技术可以用于图像和视频换脸,但它能否用于大制作电影和电视节目中呢?迪士尼最新放出的一则视频 demo 展示了这种可能性。

近日迪士尼在欧洲图形学会透视研讨会(EGSR)上发表研究,展示了首个 百万像素 逼真换脸技术。


效果是不是还不错。这样的效果虽然并不足以用于漫威电影,但它是换脸技术迈出的新一步。

来自迪士尼的研究者表示,这项技术的创新点在于能够达到百万像素质量。百万像素或许不再是高质量图像的代名词,毕竟手机自带摄像头就能达到千万像素。但是截至目前,换脸技术一直注重平滑的面部转换,不注重提高像素。

你可能在手机上看到过效果好到爆炸的换脸视频,但是如果把它们放在更大的屏幕上呈现,就会出现很多瑕疵。研究者表示,他们用开源 deepfake 模型 DeepFakeLab 创建的视频分辨率最高也只有 256*256 像素。相比之下,迪士尼新模型能够让视频的分辨率提升到 1024*1024 像素。


那么,百万像素换脸是如何实现的呢?


首个百万像素换脸方法


迪士尼的这项研究发表在欧洲图形学会透视研讨会(EGSR)上,提出了一种在图像和视频中实现全自动换脸的算法。据研究者称, 这是首个渲染百万像素逼真结果的方法,且输出结果具备时序一致性

具体来说,该研究提出了一个渐进式训练的多路 comb 网络,以及一种保持亮度和对比度的混合方法。

具体而言,虽然渐进式训练能够生成高分辨率图像,但将架构和训练数据扩展至两人以上可以使生成的表情具备更高的保真度。

此外,在将生成的表情合成到目标人脸时,研究者调整混合策略,以保持对比度和低频光照。

最后,研究者在人脸关键点稳定算法中融入了一种细化策略,以实现时序稳定性,这对于处理高分辨率视频来说至关重要。

在实验部分,研究者通过控制变量研究来验证该方法对换脸质量的影响,并与流行的 SOTA 方法进行了比较。

下图展示了迪士尼换脸方法的生成结果:


高清换脸 Pipeline

下图 2 展示了百万像素分辨率下执行逼真换脸的整体流程:


该流程包括如下四个步骤:

  1. 对于图像 x_t,检测人脸并定位人脸关键点;

  2. 将人脸分辨率归一化为 1024×1024,保存归一化参数;

  3. 将归一化人脸馈入网络,并保存第 s 个解码器的输出 x˜_s;

  4. 使用步骤 2 保存的归一化参数,在图像 x˜_s 上反转图像归一化结果。最后,借助该研究提出的合成方法,将生成的图像与图像 x_t 混合。


而该流程中,最核心的组件无疑是模型本身了。该研究使用的单编码器 - 多解码器网络架构如下图 3 所示:


此外,研究者还介绍了实现人脸关键点对齐和稳定的方法,以确保换脸图像的时序一致性,以及保持光照和对比度的图像合成流程。此处不再赘述,详情参见原论文。

与当前 SOTA 方法的对比

下图 4 为该方法与 DeepFakes、DeepFaceLab 和 Nirkin 等人提出方法的换脸效果对比。从左到右依次为:目标图像、源图像、该方法在 1024×1024 和 256×256 分辨率下的成像效果,以及其他三种方法的成像效果。


控制变量研究

研究者执行以下四种实验,来查看该研究提出的单编码器 - 多解码器网络架构和算法对换脸质量的影响:

  1. 渐进式训练 VS 一次性训练整个网络;

  2. 使用多路 comb 模型 VS 单独的双路模型;

  3. 该研究提出的保持对比度的多频段合成方法 VS 泊松融合方法;

  4. 该研究中人脸关键点稳定方法的影响。


下图 5 为渐进式训练与非渐进式训练的成像效果对比,可以看出,渐进式训练的成像效果优于非渐进式训练。


下图 7 为使用多路 comb 模型与双路模型的成像效果对比:


下图 8 为该方法与泊松融合方法的成像效果对比。从图中可以看出,该方法可以更好地保留目标人脸的全局光照特征,而泊松融合方法导致人脸出现了某种「漂白」效果。


下图 10 为人脸关键点稳定结果:


缺陷

尽管能够以高分辨率进行逼真的人脸转换,但是迪士尼提出的这一方法仍然存在缺陷。例如,无法基于数据恰当捕获的表情和姿势,可能会导致不完善的生成结果,比如模糊和其它伪影。

该研究方法的失败生成结果如下图所示:


  • 论文链接:https://s3.amazonaws.com/disney-research-data/wp-content/uploads/2020/06/18013325/High-Resolution-Neural-Face-Swapping-for-Visual-Effects.pdf

  • 参考链接:https://www.theverge.com/2020/6/29/21306889/disney-deepfake-face-swapping-research-megapixel-resolution-film-tv


机器之心 CVPR 2020 线上论文系列分享已经进行了九期。在最新一期的分享中,我们邀请到了 CVPR 2020 最佳论文的一作吴尚哲来为我们分享这篇论文的解决方案及亮点。


登录查看更多
0

相关内容

欧洲图形学研讨会(EGSR)不仅仅涉及渲染,而且鼓励在虚拟/增强现实,深度学习,3D制作和计算摄影中投稿。 支持原创文章但不限于以下主题的最新技术:基于物理的渲染(PBR)、实时渲染、机器学习进行渲染、机器学习渲染、增强/虚拟现实渲染、GPU算法、专业渲染硬件、网络和移动图形、科学可视化、音频/声音渲染。 官网地址:http://dblp.uni-trier.de/db/conf/rt/
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
16+阅读 · 2020年8月23日
对抗样本生成技术综述
专知会员服务
64+阅读 · 2020年7月21日
【天津大学】风格线条画生成技术综述
专知会员服务
34+阅读 · 2020年4月26日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
29+阅读 · 2020年4月6日
自回归模型:PixelCNN
专知会员服务
27+阅读 · 2020年3月21日
姿势服装随心换-CVPR2019
专知会员服务
36+阅读 · 2020年1月26日
【浙江大学】对抗样本生成技术综述
专知会员服务
92+阅读 · 2020年1月6日
仅训练996个剧本,迪士尼用AI自动生成动画
机器学习算法与Python学习
7+阅读 · 2019年4月20日
已删除
将门创投
7+阅读 · 2018年8月28日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
揭秘人脸识别的十大关键技术
全球创新论坛
6+阅读 · 2017年9月6日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
Arxiv
4+阅读 · 2018年6月1日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
16+阅读 · 2020年8月23日
对抗样本生成技术综述
专知会员服务
64+阅读 · 2020年7月21日
【天津大学】风格线条画生成技术综述
专知会员服务
34+阅读 · 2020年4月26日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
29+阅读 · 2020年4月6日
自回归模型:PixelCNN
专知会员服务
27+阅读 · 2020年3月21日
姿势服装随心换-CVPR2019
专知会员服务
36+阅读 · 2020年1月26日
【浙江大学】对抗样本生成技术综述
专知会员服务
92+阅读 · 2020年1月6日
相关资讯
仅训练996个剧本,迪士尼用AI自动生成动画
机器学习算法与Python学习
7+阅读 · 2019年4月20日
已删除
将门创投
7+阅读 · 2018年8月28日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
揭秘人脸识别的十大关键技术
全球创新论坛
6+阅读 · 2017年9月6日
Top
微信扫码咨询专知VIP会员