杨超越的声音+高晓松的脸~如此酸爽的技术,你值得拥有!

2018 年 12 月 4 日 AI100


作者 | 香港中文大学 Multimedia Laboratory

译者 | linstancy

整理 | Jane

出品 | AI科技大本营



什么是 Talking Face Generation 任务?


简单来讲,给定音频或视频后,可以让任意一个人的面部特征与输入信息保持一致。比如在下面的 Demo 视频中,通过输入一段音频,让其他五位个人都能说出这段话。如何利用这个技术?以后大家恶搞,就不只是给奥巴马、特朗普嫁接一段声音了。你可以让高晓松“燃烧我的卡路里”,也可以让好运锦鲤杨超越每天为你讲“晓说”。要油要甜,全看你的选择~(我要吴彦祖,胡歌,新恒结衣,神仙姐姐每天给我讲段子~)



其实,当人们说话时,面部区域一些细微的运动是非常复杂的,通常由讲话者个人固有的面部特征和所传递的外部信息共同决定。现有的研究中,一部分专注于前者,即对一个主体构建特定的面部特征模型;另一部分专注于后者,即构建唇部运动和言语信息之间的 identity-agnostic 变换的模型。



在这项工作中,作者将两方面整合一起开展了一系列研究,并提出了一种 DAVS (Disentangled Audio-Visual System)结构。通过学习分解的视觉和听觉表征,实现对任意说话主体的脸部生成。我们假设说话人的脸部序列是主体相关信息和语音相关信息的组合,通过一种新颖的关联-对抗训练过程来明确地解开这两个空间。这种分解方法的另外一个优点就是能将分解得到的音频和视频信息都可以用于语音信息的生成。大量实验表明,作者所提出的方法可以对任意对象上生成逼真的人脸序列,并且唇部运动模式更加清晰。此外,作者还发现,学习到的视听表征在唇语自动解读和音频视频检索等应用中也非常有用。



传送门


项目主页:

https://liuziwei7.github.io/projects/TalkingFace

论文链接:

https://arxiv.org/pdf/1807.07860.pdf

Github 地址:

https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS


目前,作者准备把这个项目开源,大家可以在源码公开后进行深入实践了!


首先,你需要先准备:


  • Python2.7

  • PyTorch (0.2.0)

  • Opencv2


测试结果如何生成?


1.下载预训练的模型的 checkpoint



2.测试数据在0572_0019_0003文件夹,这是从 Voxceleb 数据集中筛选,经预处理后的样本数据。


3.运行测试脚本,利用视频生成视频



4.运行测试脚本,从语音生成视频



▌数据样本的生成结果


1.对人脸面部特征的影响



2.对非真是人脸面部特征的影响(只用人脸数据作为训练样本)



创造更多的样本


Demo 视频中使用的面部检测工具可以在 rsa 中找到。每张图像的一行中,将返回一个带5个关键点的 Matfile 输出。这个工具在其他面部对齐方法中也同样适用,如 dlib。在这个项目中,作者使用的面部对齐关键点是眼睛的中心和嘴角的平均点。使用的每个图像的 PATH和 face POINTS,大家可以在 preprocess / face_align.py 文件中找到作者使用的方法。


此外,作者对音频文件的预处理方法是相同的,调用了SyncNet 的matlab 的代码,在将 mfcc 特征保存到 bin 文件中。


训练代码


训练代码正在整理中,后续会公布。此项目的代码结构参考了 pix2pix 的实现代码:


https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix


后处理细节


直接生成的结果可能会受到缩放条件 (放大和缩小) 的影响,假设这是由训练集对齐引起的。作者在 demo 中使用 subspace video stabilization 方式来解决这种不稳定问题。

参考阅读:

http://web.cecs.pdx.edu/~fliu/papers/tog2010.pdf


本文为 AI科技大本营翻译文章,转载请联系微信 1092722531。


NEW

菜单升级啦,一键直通CSDN会员服务。你关心的开发问题,这里都有答案!

搜索:开发疑难/资源一键查找,搜遍CSDN全站

会员购买:专属VIP购买,免积分下载/免广告/获免费课程

下载APP:安装CSDN APP,CSDN资源随身带

个人中心:掌上CSDN个人助手,专属您的个人空间


2018 中国大数据技术大会

BDTC 2018


BDTC 2018中国大数据技术大会携主题“大数据新应用”再度强势来袭。本次大会由华东师范大学副校长、教授周傲英,百度商业智能实验室主任熊辉,阿里巴巴副总裁李飞飞三位会议主席对大会内容把关,多位两院院士参与指导,由最了解行业痛点的一线从业者为同行打造。


扫描下方二维码或点击【阅读原文】快速购票。现在购票还有机会获得大数据图书一本(中国科学院院士梅宏主编的《大数据导论》或华中科技大学教授金海主编的《大数据处理》),数量有限!


推荐阅读

2018最后一战:25天编程PK赛!

孟岩对话元道:通证经济将在两个方向上闯出新路

从Storm到Flink:大数据处理的开源系统及编程模型(文末福利)

AWS Lambda重大更新,跨越编程语言差异之门?

程序员婚恋现状大调查:有人三十岁没谈过恋爱,有人丁克万岁

C++20 要来了!

太嚣张了,会Python的人!

登录查看更多
0

相关内容

ACM 国际多媒体大会(英文名称:ACM Multimedia,简称:ACM MM)是多媒体领域的顶级国际会议,每年举办一次。
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
110+阅读 · 2019年11月25日
你跳宅舞的样子很专业:不,这都是AI合成的结果
宅男福音deepfakes开源了
AI前线
9+阅读 · 2018年1月31日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
小米的语音识别系统是如何搭建的
深度学习每日摘要
5+阅读 · 2017年9月3日
Arxiv
99+阅读 · 2020年3月4日
Arxiv
14+阅读 · 2019年11月26日
Factor Graph Attention
Arxiv
6+阅读 · 2019年4月11日
Arxiv
3+阅读 · 2018年11月29日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
VIP会员
相关VIP内容
相关论文
Arxiv
99+阅读 · 2020年3月4日
Arxiv
14+阅读 · 2019年11月26日
Factor Graph Attention
Arxiv
6+阅读 · 2019年4月11日
Arxiv
3+阅读 · 2018年11月29日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Top
微信扫码咨询专知VIP会员