生成高保真度、一次性、可变形神经辐射场的说话人头像 (One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field) - 专知论文

会员服务 ·

0

辐射场 · 神经辐射场 · 变形 · 辐射 · 高保真 ·

2023 年 4 月 11 日

One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field

翻译：生成高保真度、一次性、可变形神经辐射场的说话人头像

Weichuang Li,Longhao Zhang,Dong Wang,Bin Zhao,Zhigang Wang,Mulin Chen,Bang Zhang,Zhongjian Wang,Liefeng Bo,Xuelong Li

from arxiv, Accepted by CVPR 2023

Talking head generation aims to generate faces that maintain the identity information of the source image and imitate the motion of the driving image. Most pioneering methods rely primarily on 2D representations and thus will inevitably suffer from face distortion when large head rotations are encountered. Recent works instead employ explicit 3D structural representations or implicit neural rendering to improve performance under large pose changes. Nevertheless, the fidelity of identity and expression is not so desirable, especially for novel-view synthesis. In this paper, we propose HiDe-NeRF, which achieves high-fidelity and free-view talking-head synthesis. Drawing on the recently proposed Deformable Neural Radiance Fields, HiDe-NeRF represents the 3D dynamic scene into a canonical appearance field and an implicit deformation field, where the former comprises the canonical source face and the latter models the driving pose and expression. In particular, we improve fidelity from two aspects: (i) to enhance identity expressiveness, we design a generalized appearance module that leverages multi-scale volume features to preserve face shape and details; (ii) to improve expression preciseness, we propose a lightweight deformation module that explicitly decouples the pose and expression to enable precise expression modeling. Extensive experiments demonstrate that our proposed approach can generate better results than previous works. Project page: https://www.waytron.net/hidenerf/

翻译：说话人头像生成旨在生成能够保持源图像身份信息并模仿驱动图像运动的面部图像。先前的方法主要依赖于2D表示，因此在遇到头部大幅度旋转时不可避免地会出现面部畸变。最近的工作则采用显式3D结构表示或隐式神经渲染来改善大姿态变化下的生成质量。然而，身份和表情的保真度并不是非常理想，特别是在新视角合成方面。本文提出了HiDe-NeRF，通过可变形神经辐射场实现了高保真度和自由视角的说话人头像合成。HiDe-NeRF基于最近提出的可变形神经辐射场，将3D动态场景表示为规范外观场和隐式畸变场。其中，规范外观场由规范源面部组成，而隐式畸变场则模拟了驱动姿态和表情。具体而言，我们从两个方面改进了保真度：(i)为了增强身份表现力，我们设计了一个广义外观模块，利用多尺度体特征来保留面部形状和细节;(ii)为了提高表情精确度，我们提出了一个轻量级畸变模块，明确地将姿态和表情分离，从而实现了精确的表情建模。广泛的实验证明我们的方法可以产生比以前的方法更好的结果。项目主页: https://www.waytron.net/hidenerf/

0

相关内容

辐射场

【CVPR2023】高保真自由可控的说话头视频生成

【CVPR2023】高保真自由可控的说话头视频生成

专知会员服务

21+阅读 · 2023年4月22日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【Google】神经辐射场，Neural Radiance Fields，74页ppt

专知会员服务

74+阅读 · 2021年5月28日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

SIGGRAPH Asia 2022 | 人脸神经辐射场的掩码编辑方法—NeRFFaceEditing

SIGGRAPH Asia 2022 | 人脸神经辐射场的掩码编辑方法—NeRFFaceEditing

PaperWeekly

1+阅读 · 2022年11月13日

7 Papers & Radios | 谷歌推出DreamBooth扩散模型；张益唐零点猜想论文出炉

7 Papers & Radios | 谷歌推出DreamBooth扩散模型；张益唐零点猜想论文出炉

机器之心

2+阅读 · 2022年11月13日

人脸神经辐射场的掩码编辑方法NeRFFaceEditing，不会三维建模也能编辑立体人脸

人脸神经辐射场的掩码编辑方法NeRFFaceEditing，不会三维建模也能编辑立体人脸

机器之心

0+阅读 · 2022年11月9日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于变分结构纹理分解的超分辨率图像复原方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

拟人角色风格化运动生成研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多尺度边缘感知的图像平滑和分层编辑研究

国家自然科学基金

0+阅读 · 2012年12月31日

模拟人类视觉系统的基于图像的快速三维建模方法

国家自然科学基金

0+阅读 · 2011年12月31日

风格化人体运动合成新方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于视差调整的3D视频重绘方法研究

国家自然科学基金

0+阅读 · 2010年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于Sparse-Land模型的SAR图像噪声抑制与分割

国家自然科学基金

0+阅读 · 2009年12月31日

Compact Real-time Radiance Fields with Neural Codebook

Arxiv

0+阅读 · 2023年5月29日

SketchFFusion: Sketch-guided image editing with diffusion model

Arxiv

0+阅读 · 2023年5月29日

Multi-Modal Face Stylization with a Generative Prior

Arxiv

0+阅读 · 2023年5月29日

Volume Feature Rendering for Fast Neural Radiance Field Reconstruction

Arxiv

0+阅读 · 2023年5月29日

How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers

Arxiv

0+阅读 · 2023年5月26日

S4M: Generating Radiology Reports by A Single Model for Multiple Body Parts

Arxiv

0+阅读 · 2023年5月26日

Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability

Arxiv

0+阅读 · 2023年5月25日

A Systematic Survey on Deep Generative Models for Graph Generation

Arxiv

18+阅读 · 2022年10月4日

How Does Knowledge Graph Embedding Extrapolate to Unseen Data: a Semantic Evidence View

Arxiv

15+阅读 · 2022年1月5日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

11+阅读 · 2018年1月18日

VIP会员

文章信息

相关主题

神经辐射场

相关VIP内容

【CVPR2023】高保真自由可控的说话头视频生成

【CVPR2023】高保真自由可控的说话头视频生成

专知会员服务

21+阅读 · 2023年4月22日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【Google】神经辐射场，Neural Radiance Fields，74页ppt

专知会员服务

74+阅读 · 2021年5月28日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

SIGGRAPH Asia 2022 | 人脸神经辐射场的掩码编辑方法—NeRFFaceEditing

SIGGRAPH Asia 2022 | 人脸神经辐射场的掩码编辑方法—NeRFFaceEditing

PaperWeekly

1+阅读 · 2022年11月13日

7 Papers & Radios | 谷歌推出DreamBooth扩散模型；张益唐零点猜想论文出炉

7 Papers & Radios | 谷歌推出DreamBooth扩散模型；张益唐零点猜想论文出炉

机器之心

2+阅读 · 2022年11月13日

人脸神经辐射场的掩码编辑方法NeRFFaceEditing，不会三维建模也能编辑立体人脸

人脸神经辐射场的掩码编辑方法NeRFFaceEditing，不会三维建模也能编辑立体人脸

机器之心

0+阅读 · 2022年11月9日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

相关论文

Compact Real-time Radiance Fields with Neural Codebook

Arxiv

0+阅读 · 2023年5月29日

SketchFFusion: Sketch-guided image editing with diffusion model

Arxiv

0+阅读 · 2023年5月29日

Multi-Modal Face Stylization with a Generative Prior

Arxiv

0+阅读 · 2023年5月29日

Volume Feature Rendering for Fast Neural Radiance Field Reconstruction

Arxiv

0+阅读 · 2023年5月29日

How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers

Arxiv

0+阅读 · 2023年5月26日

S4M: Generating Radiology Reports by A Single Model for Multiple Body Parts

Arxiv

0+阅读 · 2023年5月26日

Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability

Arxiv

0+阅读 · 2023年5月25日

A Systematic Survey on Deep Generative Models for Graph Generation

Arxiv

18+阅读 · 2022年10月4日

How Does Knowledge Graph Embedding Extrapolate to Unseen Data: a Semantic Evidence View

Arxiv

15+阅读 · 2022年1月5日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

11+阅读 · 2018年1月18日

相关基金

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于变分结构纹理分解的超分辨率图像复原方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

拟人角色风格化运动生成研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多尺度边缘感知的图像平滑和分层编辑研究

国家自然科学基金

0+阅读 · 2012年12月31日

模拟人类视觉系统的基于图像的快速三维建模方法

国家自然科学基金

0+阅读 · 2011年12月31日

风格化人体运动合成新方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于视差调整的3D视频重绘方法研究

国家自然科学基金

0+阅读 · 2010年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于Sparse-Land模型的SAR图像噪声抑制与分割

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员