Talking head generation aims to generate faces that maintain the identity information of the source image and imitate the motion of the driving image. Most pioneering methods rely primarily on 2D representations and thus will inevitably suffer from face distortion when large head rotations are encountered. Recent works instead employ explicit 3D structural representations or implicit neural rendering to improve performance under large pose changes. Nevertheless, the fidelity of identity and expression is not so desirable, especially for novel-view synthesis. In this paper, we propose HiDe-NeRF, which achieves high-fidelity and free-view talking-head synthesis. Drawing on the recently proposed Deformable Neural Radiance Fields, HiDe-NeRF represents the 3D dynamic scene into a canonical appearance field and an implicit deformation field, where the former comprises the canonical source face and the latter models the driving pose and expression. In particular, we improve fidelity from two aspects: (i) to enhance identity expressiveness, we design a generalized appearance module that leverages multi-scale volume features to preserve face shape and details; (ii) to improve expression preciseness, we propose a lightweight deformation module that explicitly decouples the pose and expression to enable precise expression modeling. Extensive experiments demonstrate that our proposed approach can generate better results than previous works. Project page: https://www.waytron.net/hidenerf/


翻译:说话人头像生成旨在生成能够保持源图像身份信息并模仿驱动图像运动的面部图像。先前的方法主要依赖于2D表示,因此在遇到头部大幅度旋转时不可避免地会出现面部畸变。最近的工作则采用显式3D结构表示或隐式神经渲染来改善大姿态变化下的生成质量。然而,身份和表情的保真度并不是非常理想,特别是在新视角合成方面。本文提出了HiDe-NeRF,通过可变形神经辐射场实现了高保真度和自由视角的说话人头像合成。HiDe-NeRF基于最近提出的可变形神经辐射场,将3D动态场景表示为规范外观场和隐式畸变场。其中,规范外观场由规范源面部组成,而隐式畸变场则模拟了驱动姿态和表情。具体而言,我们从两个方面改进了保真度:(i)为了增强身份表现力,我们设计了一个广义外观模块,利用多尺度体特征来保留面部形状和细节;(ii)为了提高表情精确度,我们提出了一个轻量级畸变模块,明确地将姿态和表情分离,从而实现了精确的表情建模。广泛的实验证明我们的方法可以产生比以前的方法更好的结果。项目主页: https://www.waytron.net/hidenerf/

0
下载
关闭预览

相关内容

【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
20+阅读 · 2023年4月22日
专知会员服务
72+阅读 · 2021年5月28日
专知会员服务
15+阅读 · 2021年5月13日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月29日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员