语音驱动的说话人脸生成(Talking face, Talking head generation)这一课题本身有多种不同的实验设置。此方向的综述可以参考 Lele Chen 的 What comprises a good talking-head video generation? : A Survey and Benchmark [1]。在这里本文Focus的方向为基于单张图像(One-shot),面向任意人脸,语音驱动setting下的说话人脸生成问题。具体来说,我们希望基于一张图片,生成与语音同步的说话人脸视频。

这一setting下的工作包括 VGG 组的You said that? [2] ,CUHK(笔者自己)的DAVS [3],乐乐的ATVG [4] 以及Adobe周洋和李丁博士的MakeitTalk [5]等等。整体来讲,之前的工作[2][3][4]更多的关注于嘴型的准确性和ID的保存上,从而忽略了头部的自然运动。在本文中我们所试图解决的,是之前说话人脸生成中人头pose难以控制这一问题。

https://www.zhuanzhi.ai/paper/9676897730762fb107530787da202696

最近的Makeittalk[5]和乐乐的Rhythmic Head[6] 则关注于和个人ID信息有关的自然头部运动。但是他们的方法都依赖于3D的结构化信息。

想独立控制头部运动,就需要对Head pose和facial expression,identity做一个解耦。通过思考我们可以意识到,这种解耦在2D图像和2D landmark的表征中都很难实现。而在我们语音驱动的大前提下,嘴型要和audio对齐,头部运动又要自然,可以说是难上加难。另一方面,3D的人脸表征中,head pose和facial expression可以天然地用不同的参数控制,可以说是最佳选择。

因此之前的工作,Makeittalk[5]选择了3D的人脸关键点,而Rhythmic Head[6]则直接依赖于完整地3D重建。但是基于3D的人脸建模,尤其是在极端场景下,开源方法的准确度并无法保证。而基于优化算法的3D fitting还会带来大量的预处理负担。所以本文不使用3D或结构化数据,重新从2D入手解决问题。

在这个工作中,我们提出了Pose-Controllable Audio-Visual System (PC-AVS),成功在语音任意说话人的setting下,生成了姿态可控的结果。综合来看我们的方法有以下几个特质值得关注:

我们的方法不借助预定义的结构信息,仅使用一个图像重建的pipeline,成功定义了一个对人脸pose的表征。 由style-based generator平衡的训练模式让唇形生成收到更契合的重建约束,从而提升了唇形对齐的准确度。 我们实现了任意说话人脸下的自由人头姿态控制,使生成的结果更加真实。 我们的模型在极端情况下有很好的鲁棒性,并且实现了转正的说话人脸生成。

成为VIP会员查看完整内容
15

相关内容

【CVPR2021】GAN人脸预训练模型
专知会员服务
23+阅读 · 2021年4月10日
专知会员服务
38+阅读 · 2021年3月29日
【CVPR2021】通过分层风格分解的图像到图像的翻译
专知会员服务
7+阅读 · 2021年3月26日
自监督学习最新研究进展
专知会员服务
76+阅读 · 2021年3月24日
专知会员服务
26+阅读 · 2021年3月5日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
38+阅读 · 2020年12月29日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
你跳宅舞的样子很专业:不,这都是AI合成的结果
TPAMI 2019 | 鲁棒RGB-D人脸识别
计算机视觉life
11+阅读 · 2019年6月8日
人脸专集4 | 遮挡、光照等因素的人脸关键点检测
计算机视觉战队
29+阅读 · 2019年4月11日
人脸识别 | 基于深度学习以人类为中心的图像理解
计算机视觉战队
7+阅读 · 2019年3月17日
(Python)3D人脸处理工具Face3d
AI研习社
7+阅读 · 2019年2月10日
干货 | CVPR 2018论文:「随心所欲」换装换姿态
AI科技评论
9+阅读 · 2018年7月2日
Arxiv
0+阅读 · 2021年7月1日
Arxiv
8+阅读 · 2021年3月2日
VIP会员
相关VIP内容
【CVPR2021】GAN人脸预训练模型
专知会员服务
23+阅读 · 2021年4月10日
专知会员服务
38+阅读 · 2021年3月29日
【CVPR2021】通过分层风格分解的图像到图像的翻译
专知会员服务
7+阅读 · 2021年3月26日
自监督学习最新研究进展
专知会员服务
76+阅读 · 2021年3月24日
专知会员服务
26+阅读 · 2021年3月5日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
38+阅读 · 2020年12月29日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
相关资讯
你跳宅舞的样子很专业:不,这都是AI合成的结果
TPAMI 2019 | 鲁棒RGB-D人脸识别
计算机视觉life
11+阅读 · 2019年6月8日
人脸专集4 | 遮挡、光照等因素的人脸关键点检测
计算机视觉战队
29+阅读 · 2019年4月11日
人脸识别 | 基于深度学习以人类为中心的图像理解
计算机视觉战队
7+阅读 · 2019年3月17日
(Python)3D人脸处理工具Face3d
AI研习社
7+阅读 · 2019年2月10日
干货 | CVPR 2018论文:「随心所欲」换装换姿态
AI科技评论
9+阅读 · 2018年7月2日
微信扫码咨询专知VIP会员