【MM 2021】基于单张图像的多风格说话人合成，Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis - 专知VIP

会员服务 ·

2

MM2021 · 多风格说话人合成 · 说话人合成 · 清华大学 · 华为 ·

2022 年 3 月 22 日

【MM 2021】基于单张图像的多风格说话人合成，Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

说话人合成任务旨在根据输入的音频以及目标人物的脸像，合成形象的面部动作与逼真的视频。该任务主要存在两个困难: (1) 如何建模多风格的、形象的音频到面部动作映射。(2) 如何根据目标人物的图像渲染出逼真的视频。为了解决这两个问题，我们 (1) 定义了连续的风格空间编码，根据该编码合成音频同步的说话动作。(2) 实现了one-shot deferred neural render，给定单张人脸，不用任何fine-tune，即可控制该人脸的3D表情、姿态，并且渲染为真实2D图像。下面我们分别介绍这两部分的实现。

首先，来谈一谈多风格唇形合成。对于风格化的唇形合成，之前的方法往往是one-shot的，例如VOCA。然而，在现实中，显然一个人也有可能有多种不同的talking风格。如果在wild的数据中，我们对于每个人强制的用one-shot，就有可能导致最终合成的style被平滑掉。为了解决这一问题，我们用了图像风格迁移中类似gram matrix的思路，在一段面部动作序列(3DMM参数序列)中，寻找与风格强相关的连续性统计量，将这一连续性统计量fuse到音频到面部动作参数的预测模型中，达到风格控制的效果。通过这样的方式，我们甚至可以模仿任意的说话风格。那么接下来的问题就是，如何找到这样一个统计量？如何在audio2motion的模型中做fuse？

为了找到这样一个统计量，我们做了大量的statistical study，发现风格与表情序列的方差、表情序列差分的方差，姿态序列差分的方差密切相关。因此我们将控制风格的连续性统计量定义如下：

其中beta是表情，p是姿态，sigma是标准差。有了这样的sty code，接下来的问题就是怎么将style融入到audio2motion的模型中。我们尝试了很多方案，比如adain，但是方案都没有最简单的在resnet1D的中间层将隐层音频特征与sty融合效果好，因此最后采用了最简单的方案: 直接把隐层音频特征的每一帧和sty拼接，如下图所示。

通过这样的方式我们得到了风格化的唇形动作序列，接下来就是one-shot渲染的问题。

我们参考了neural voice puppetry中deferred neural render的方案，用神经纹理+UV纹理采样+图像迁移的方式做渲染。但是，deferred neural render需要2-3分钟的视频训练神经纹理，我们则训练了一个texture encoder从单张图片合成纹理。在具体实现中，我们从RGB图像以及单目的重建结果中unwrap出RGB纹理，随后用UNet从RGB纹理中合成神经纹理，再将神经纹理输入到后续神经渲染的流程中。通过这样的方式，我们在单张图像上实现了姿态、表情的控制。具体如下图：

这一部分的训练是在LRW数据集上端到端训练的，对unseen的identity有很好的泛化能力，我们在开源的code中给出了一个one-shot合成的结果。这里也给了一些比较结果:

作者：吴昊哲1，贾珈1，王浩宇1，窦义顺2，段超2，邓清珊2

单位：1清华大学，2华为

邮箱：

wuhz19@mails.tsinghua.edu.cn,

jjia@tsinghua.edu.cn,

wang-hy18@mails.tsinghua.edu.cn,

douyishun@hisilicon.com,

duanchao15@hisilicon.com,

dengqingshan@hisilicon.com

论文：

https://arxiv.org/abs/2111.00203

代码：

https://github.com/wuhaozhe/style_avatar

demo视频：

https://hcsi.cs.tsinghua.edu.cn/demo/MM21-HAOZHEWU.mp4

6

相关内容

MM2021

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

【CVPR 2022】自由风格的文本-人脸合成和操作，AnyFace: Free-style Text-to-Face Synthesis and Manipulation

【CVPR 2022】自由风格的文本-人脸合成和操作，AnyFace: Free-style Text-to-Face Synthesis and Manipulation

专知会员服务

8+阅读 · 2022年3月12日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

【ECCV2020】基于场景图分解的自然语言描述生成

【ECCV2020】基于场景图分解的自然语言描述生成

专知会员服务

24+阅读 · 2020年9月3日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

自回归模型:PixelCNN

自回归模型:PixelCNN

专知会员服务

27+阅读 · 2020年3月21日

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

专知会员服务

84+阅读 · 2020年3月17日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

CVPR 2022 | DualStyleGAN在手，百变风格我有！

CVPR 2022 | DualStyleGAN在手，百变风格我有！

CVer

3+阅读 · 2022年3月30日

CVPR 2022 | Adobe把GAN搞成了缝合怪！凭空P出一张1024分辨率全身人像

CVPR 2022 | Adobe把GAN搞成了缝合怪！凭空P出一张1024分辨率全身人像

CVer

0+阅读 · 2022年3月27日

【论文导读】2022年论文导读第六期

【论文导读】2022年论文导读第六期

CCF多媒体专委会

16+阅读 · 2022年3月22日

买不起手办就用AI渲染一个！用网上随便搜的图就能合成，已有网友开炒游戏NFT

买不起手办就用AI渲染一个！用网上随便搜的图就能合成，已有网友开炒游戏NFT

量子位

0+阅读 · 2022年2月20日

注意力机制YYDS，AI编辑人脸终于告别P一处而毁全图

注意力机制YYDS，AI编辑人脸终于告别P一处而毁全图

量子位

0+阅读 · 2022年2月16日

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

AI科技评论

14+阅读 · 2020年3月16日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

镜头间的风格转换行人重识别

镜头间的风格转换行人重识别

统计学习与视觉计算组

13+阅读 · 2018年8月16日

图像风格迁移(Neural Style)简史

图像风格迁移(Neural Style)简史

算法与数学之美

21+阅读 · 2018年2月4日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

基于ancilla量子位的多通道量子视频生成及加密方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉注意机制的SAR图像小目标检测方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

集成多模态信息的驾驶者异常状态识别模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

布料图像颜色迁移中细节保持方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于时空流形学习与概率图模型的人体动作识别

国家自然科学基金

2+阅读 · 2012年12月31日

基于观测图像的发音器官运动合成研究

国家自然科学基金

0+阅读 · 2011年12月31日

风格化人体运动合成新方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

基于端元特征提取的高光谱遥感图像压缩

国家自然科学基金

0+阅读 · 2009年12月31日

MooAFEM: An object oriented Matlab code for higher-order (nonlinear) adaptive FEM

Arxiv

0+阅读 · 2022年4月20日

Dual-Domain Image Synthesis using Segmentation-Guided GAN

Arxiv

0+阅读 · 2022年4月19日

Photorealistic Monocular 3D Reconstruction of Humans Wearing Clothing

Arxiv

1+阅读 · 2022年4月19日

Deep Reinforcement Learning for Practical Phase Shift Optimization in RIS-aided MISO URLLC Systems

Arxiv

0+阅读 · 2022年4月19日

Audio Deep Fake Detection System with Neural Stitching for ADD 2022

Arxiv

0+阅读 · 2022年4月19日

Self-Supervised Equivariant Learning for Oriented Keypoint Detection

Arxiv

0+阅读 · 2022年4月19日

3D-aware Image Synthesis via Learning Structural and Textural Representations

Arxiv

1+阅读 · 2022年4月18日

VoiceFixer: A Unified Framework for High-Fidelity Speech Restoration

Arxiv

0+阅读 · 2022年4月17日

More Control for Free! Image Synthesis with Semantic Diffusion Guidance

Arxiv

1+阅读 · 2022年4月14日

Image-to-Image Retrieval by Learning Similarity between Scene Graphs

Arxiv

21+阅读 · 2020年12月29日

VIP会员

相关主题

多风格说话人合成

说话人合成

相关VIP内容

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

【CVPR 2022】自由风格的文本-人脸合成和操作，AnyFace: Free-style Text-to-Face Synthesis and Manipulation

【CVPR 2022】自由风格的文本-人脸合成和操作，AnyFace: Free-style Text-to-Face Synthesis and Manipulation

专知会员服务

8+阅读 · 2022年3月12日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

【ECCV2020】基于场景图分解的自然语言描述生成

【ECCV2020】基于场景图分解的自然语言描述生成

专知会员服务

24+阅读 · 2020年9月3日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

自回归模型:PixelCNN

自回归模型:PixelCNN

专知会员服务

27+阅读 · 2020年3月21日

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

专知会员服务

84+阅读 · 2020年3月17日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

最新《扩散模型原理》新书，470页pdf

无人机作战：演进、创新与未来战场

AI 智能体简史

多模态空间推理在大模型时代：综述与基准测试

相关资讯

CVPR 2022 | DualStyleGAN在手，百变风格我有！

CVPR 2022 | DualStyleGAN在手，百变风格我有！

CVer

3+阅读 · 2022年3月30日

CVPR 2022 | Adobe把GAN搞成了缝合怪！凭空P出一张1024分辨率全身人像

CVPR 2022 | Adobe把GAN搞成了缝合怪！凭空P出一张1024分辨率全身人像

CVer

0+阅读 · 2022年3月27日

【论文导读】2022年论文导读第六期

【论文导读】2022年论文导读第六期

CCF多媒体专委会

16+阅读 · 2022年3月22日

买不起手办就用AI渲染一个！用网上随便搜的图就能合成，已有网友开炒游戏NFT

买不起手办就用AI渲染一个！用网上随便搜的图就能合成，已有网友开炒游戏NFT

量子位

0+阅读 · 2022年2月20日

注意力机制YYDS，AI编辑人脸终于告别P一处而毁全图

注意力机制YYDS，AI编辑人脸终于告别P一处而毁全图

量子位

0+阅读 · 2022年2月16日

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

AI科技评论

14+阅读 · 2020年3月16日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

镜头间的风格转换行人重识别

镜头间的风格转换行人重识别

统计学习与视觉计算组

13+阅读 · 2018年8月16日

图像风格迁移(Neural Style)简史

图像风格迁移(Neural Style)简史

算法与数学之美

21+阅读 · 2018年2月4日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

相关基金

基于ancilla量子位的多通道量子视频生成及加密方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉注意机制的SAR图像小目标检测方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

集成多模态信息的驾驶者异常状态识别模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

布料图像颜色迁移中细节保持方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于时空流形学习与概率图模型的人体动作识别

国家自然科学基金

2+阅读 · 2012年12月31日

基于观测图像的发音器官运动合成研究

国家自然科学基金

0+阅读 · 2011年12月31日

风格化人体运动合成新方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

基于端元特征提取的高光谱遥感图像压缩

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

MooAFEM: An object oriented Matlab code for higher-order (nonlinear) adaptive FEM

Arxiv

0+阅读 · 2022年4月20日

Dual-Domain Image Synthesis using Segmentation-Guided GAN

Arxiv

0+阅读 · 2022年4月19日

Photorealistic Monocular 3D Reconstruction of Humans Wearing Clothing

Arxiv

1+阅读 · 2022年4月19日

Deep Reinforcement Learning for Practical Phase Shift Optimization in RIS-aided MISO URLLC Systems

Arxiv

0+阅读 · 2022年4月19日

Audio Deep Fake Detection System with Neural Stitching for ADD 2022

Arxiv

0+阅读 · 2022年4月19日

Self-Supervised Equivariant Learning for Oriented Keypoint Detection

Arxiv

0+阅读 · 2022年4月19日

3D-aware Image Synthesis via Learning Structural and Textural Representations

Arxiv

1+阅读 · 2022年4月18日

VoiceFixer: A Unified Framework for High-Fidelity Speech Restoration

Arxiv

0+阅读 · 2022年4月17日

More Control for Free! Image Synthesis with Semantic Diffusion Guidance

Arxiv

1+阅读 · 2022年4月14日

Image-to-Image Retrieval by Learning Similarity between Scene Graphs

Arxiv

21+阅读 · 2020年12月29日

微信扫码咨询专知VIP会员