让你的声音动起来，人声驱动合成逼真的视频人像

会员服务 ·

让你的声音动起来，人声驱动合成逼真的视频人像

2020 年 11 月 30 日 计算机视觉life

点击上方“计算机视觉life”，选择“星标”

快速获得最新干货

标题：Photorealistic Audio-driven Video Portraits

作者：Xin Wen, Miao Wang, Christian Richardt, Ze-Yin Chen, Shi-Min Hu

来源：Transactions on Visualization and Computer Graphics, 2020.

主页：https://richardt.name/publications/audio-dvp

编译：realcat

目前算法已经开源，链接如下：

Github：github.com/xinwen-cs/AudioDVP

视频人像在各种应用中都很常见，如视频会议、新闻广播、虚拟教育和培训等。本文提出了一种新的方法，由人的声音自动驱动，给输入的人像视频合成逼真的视频人像。这项任务的主要挑战是如何从输入的语音音频中幻化出可信的、逼真的面部表情。为了解决这个挑战，本文采用了一个由几何形状、面部表情、光照等表示的参数化三维人脸模型，并学习从音频特征到模型参数的映射。

效果直接看视频：

首先将输入源音频表示为一个高维特征，用来预测3D人脸模型的面部表情参数。

然后，将从原始目标视频中计算出的表情参数替换为预测参数，并重新演绎人脸。最后，通过神经人脸渲染器从重演的合成人脸序列中生成一个逼真的视频人像。本文方法的一个吸引人的特点是对各种输入语音音频的泛化能力，包括来自文本到语音软件的合成语音音频。大量的实验结果表明，本文的方法优于之前的通用音频驱动的视频人像方法。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

投稿、合作也欢迎联系：simiter@126.com

扫描关注视频号，看最新技术落地及开源方案视频秀 ↓

登录查看更多

相关内容

计算机科学

关注 56

计算机科学（Computer Science, CS）是系统性研究信息与计算的理论基础以及它们在计算机系统中如何实现与应用的实用技术的学科。它通常被形容为对那些创造、描述以及转换信息的算法处理的系统研究。计算机科学包含很多分支领域；其中一些，比如计算机图形学强调特定结果的计算，而另外一些，比如计算复杂性理论是学习计算问题的性质。还有一些领域专注于挑战怎样实现计算。比如程序设计语言理论学习描述计算的方法，而程序设计是应用特定的程序设计语言解决特定的计算问题，人机交互则是专注于挑战怎样使计算机和计算变得有用、可用，以及随时随地为人所用。 现代计算机科学( Computer Science)包含理论计算机科学和应用计算机科学两大分支。

不可错过！CMU《深度学习导论》2020课程，附课件与视频

专知会员服务

80+阅读 · 2020年10月27日

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

专知会员服务

20+阅读 · 2020年10月18日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

基于视觉的三维重建关键技术研究综述

专知会员服务

166+阅读 · 2020年5月1日