To the best of our knowledge, we first present a live system that generates personalized photorealistic talking-head animation only driven by audio signals at over 30 fps. Our system contains three stages. The first stage is a deep neural network that extracts deep audio features along with a manifold projection to project the features to the target person's speech space. In the second stage, we learn facial dynamics and motions from the projected audio features. The predicted motions include head poses and upper body motions, where the former is generated by an autoregressive probabilistic model which models the head pose distribution of the target person. Upper body motions are deduced from head poses. In the final stage, we generate conditional feature maps from previous predictions and send them with a candidate image set to an image-to-image translation network to synthesize photorealistic renderings. Our method generalizes well to wild audio and successfully synthesizes high-fidelity personalized facial details, e.g., wrinkles, teeth. Our method also allows explicit control of head poses. Extensive qualitative and quantitative evaluations, along with user studies, demonstrate the superiority of our method over state-of-the-art techniques.


翻译:就我们所知,我们首先提出一个活的系统,产生个性化的摄影现实性谈话头部动画,仅由30个远方的音频信号驱动。我们的系统包含三个阶段。第一阶段是一个深神经网络,从深度的音频特征中提取,并配有将特征投射到目标人的语音空间的多重投影。在第二阶段,我们从预测的音频特征中学习面部动态和动作。预测的动作包括头部姿势和上身动作,前者是由一个自动递减性概率模型生成的,该模型模拟目标人的头部姿势分布。上身动作是从头部姿势中推断出来的。在最后阶段,我们从以前的预测中绘制有条件的地貌图,并用一个候选图像集成成成成成一个图像到图像的翻译网络,以合成摄影真实性图像。我们的方法对野生的音频进行概括,并成功地合成高纤维化的个人面部细节,例如皱纹和牙齿。我们的方法还允许对头部姿势进行明确的控制。广泛的定性和定量评价,同时进行用户研究,显示我们的方法优于状态技术的优势。

1
下载
关闭预览

相关内容

iOS 8 提供的应用间和应用跟系统的功能交互特性。
  • Today (iOS and OS X): widgets for the Today view of Notification Center
  • Share (iOS and OS X): post content to web services or share content with others
  • Actions (iOS and OS X): app extensions to view or manipulate inside another app
  • Photo Editing (iOS): edit a photo or video in Apple's Photos app with extensions from a third-party apps
  • Finder Sync (OS X): remote file storage in the Finder with support for Finder content annotation
  • Storage Provider (iOS): an interface between files inside an app and other apps on a user's device
  • Custom Keyboard (iOS): system-wide alternative keyboards

Source: iOS 8 Extensions: Apple’s Plan for a Powerful App Ecosystem
金融人工智能,40页pdf
专知会员服务
144+阅读 · 2021年10月9日
专知会员服务
16+阅读 · 2021年5月13日
专知会员服务
156+阅读 · 2021年3月6日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
181+阅读 · 2020年9月7日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
185+阅读 · 2020年7月29日
已删除
将门创投
8+阅读 · 2019年8月28日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
CTR预估专栏 | 一文搞懂阿里Deep Interest Network
AI前线
14+阅读 · 2018年7月20日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
3+阅读 · 2020年7月16日
Pluralistic Image Completion
Arxiv
8+阅读 · 2019年3月11日
VIP会员
相关VIP内容
金融人工智能,40页pdf
专知会员服务
144+阅读 · 2021年10月9日
专知会员服务
16+阅读 · 2021年5月13日
专知会员服务
156+阅读 · 2021年3月6日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
181+阅读 · 2020年9月7日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
185+阅读 · 2020年7月29日
相关资讯
已删除
将门创投
8+阅读 · 2019年8月28日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
CTR预估专栏 | 一文搞懂阿里Deep Interest Network
AI前线
14+阅读 · 2018年7月20日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员