Emerging Metaverse applications demand accessible, accurate, and easy-to-use tools for 3D digital human creations in order to depict different cultures and societies as if in the physical world. Recent large-scale vision-language advances pave the way to for novices to conveniently customize 3D content. However, the generated CG-friendly assets still cannot represent the desired facial traits for human characteristics. In this paper, we present DreamFace, a progressive scheme to generate personalized 3D faces under text guidance. It enables layman users to naturally customize 3D facial assets that are compatible with CG pipelines, with desired shapes, textures, and fine-grained animation capabilities. From a text input to describe the facial traits, we first introduce a coarse-to-fine scheme to generate the neutral facial geometry with a unified topology. We employ a selection strategy in the CLIP embedding space, and subsequently optimize both the details displacements and normals using Score Distillation Sampling from generic Latent Diffusion Model. Then, for neutral appearance generation, we introduce a dual-path mechanism, which combines the generic LDM with a novel texture LDM to ensure both the diversity and textural specification in the UV space. We also employ a two-stage optimization to perform SDS in both the latent and image spaces to significantly provides compact priors for fine-grained synthesis. Our generated neutral assets naturally support blendshapes-based facial animations. We further improve the animation ability with personalized deformation characteristics by learning the universal expression prior using the cross-identity hypernetwork. Notably, DreamFace can generate of realistic 3D facial assets with physically-based rendering quality and rich animation ability from video footage, even for fashion icons or exotic characters in cartoons and fiction movies.


翻译:新兴的元宇宙应用需要易于访问、准确且易于使用的工具来创建三维数字人物,以便像在物理世界中一样刻画不同的文化和社会。最近大规模的视觉语言进步为初学者提供了方便的定制三维内容的途径。然而,生成的计算机生成友好型资产仍不能代表人类特征的所需面部特征。在本文中,我们提出了一种名为 DreamFace 的逐步方案,用于在文本指导下生成个性化的三维面部。它使普通用户可以自然地定制与 CG 管线兼容的 3D 面部资产,具有所需的形状、纹理和细微动画能力。从描述面部特征的文本输入开始,我们首先介绍一个粗糙到精细的方案来生成具有统一拓扑的中性面部几何。我们采用 CLIP 嵌入空间中的选择策略,随后使用通用潜在扩散模型中的得分蒸馏采样来优化细节位移和法线。然后,对于中性外观生成,我们引入了双路径机制,将通用 LDM 与一种新颖的纹理 LDM 相结合,以确保 UV 空间中的多样性和纹理规范。我们还采用两阶段优化,在潜在和图像空间中执行 SDS,显著提供了微观合成的紧致先验。我们生成的中性资产自然支持基于融合形状的面部动画。我们通过使用跨身份超网络学习通用表情先验进一步改善动画能力与个性化变形特性。值得注意的是,DreamFace 可以从视频镜头中生成具有物理渲染质量和丰富动画能力的逼真三维面部资产,即使是时尚偶像、卡通电影和小说中的异国情调角色。

0
下载
关闭预览

相关内容

 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月23日
Arxiv
0+阅读 · 2023年5月19日
VIP会员
相关VIP内容
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员