DreamAvatar: 基于文本和形状引导的扩散模型生成三维人形化身 (DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models) - 专知论文

会员服务 ·

0

模型生成 · 扩散模型 · NeRF · 变形 · 可控 ·

2023 年 4 月 6 日

DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models

翻译：DreamAvatar: 基于文本和形状引导的扩散模型生成三维人形化身

Yukang Cao,Yan-Pei Cao,Kai Han,Ying Shan,Kwan-Yee K. Wong

from arxiv, 19 pages, 19 figures. Project page: https://yukangcao.github.io/DreamAvatar/

We present DreamAvatar, a text-and-shape guided framework for generating high-quality 3D human avatars with controllable poses. While encouraging results have been produced by recent methods on text-guided 3D common object generation, generating high-quality human avatars remains an open challenge due to the complexity of the human body's shape, pose, and appearance. We propose DreamAvatar to tackle this challenge, which utilizes a trainable NeRF for predicting density and color features for 3D points and a pre-trained text-to-image diffusion model for providing 2D self-supervision. Specifically, we leverage SMPL models to provide rough pose and shape guidance for the generation. We introduce a dual space design that comprises a canonical space and an observation space, which are related by a learnable deformation field through the NeRF, allowing for the transfer of well-optimized texture and geometry from the canonical space to the target posed avatar. Additionally, we exploit a normal-consistency regularization to allow for more vivid generation with detailed geometry and texture. Through extensive evaluations, we demonstrate that DreamAvatar significantly outperforms existing methods, establishing a new state-of-the-art for text-and-shape guided 3D human generation.

翻译：我们提出了DreamAvatar，这是一个文本和形状引导的框架，用于生成具有可控姿势的高质量三维人形化身。尽管最近的方法在文本引导的三维普通物体生成方面产生了令人满意的结果，但生成高质量的人形化身仍然是一个开放的挑战，因为人体的形状，姿势和外观非常复杂。我们提出了DreamAvatar来解决这个挑战，它利用可训练的NeRF来预测三维点的密度和颜色特征，并利用预训练的文本到图像扩散模型提供二维自监督。具体来说，我们利用SMPL模型提供粗略的姿势和形状引导来生成化身。我们引入了一个双空间设计，包括一个规范空间和一个观察空间，它们通过NeRF的可学习变形场相关，允许将优化良好的纹理和几何体从规范空间转移到目标设定的化身。此外，我们利用法线一致性规则来实现更丰富的生成，具备详细的几何和纹理。通过广泛的评估，我们证明DreamAvatar明显优于现有方法，并为文本和形状引导的三维人形生成建立了一个新的最高水平。

0

相关内容

模型生成

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

一句话生成3D模型：AI扩散模型的突破，让建模师慌了

一句话生成3D模型：AI扩散模型的突破，让建模师慌了

机器之心

2+阅读 · 2022年11月23日

创世游戏：Diffusion Model的非数学解释

创世游戏：Diffusion Model的非数学解释

PaperWeekly

6+阅读 · 2022年11月12日

沉浸式体验飞鸟的快乐：从一张照片生成3D航拍视频

沉浸式体验飞鸟的快乐：从一张照片生成3D航拍视频

机器之心

0+阅读 · 2022年11月9日

Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

新智元

0+阅读 · 2022年10月13日

苹果把NeRF玩出新高度：只需单个10s视频，就能重构人物动作和场景

苹果把NeRF玩出新高度：只需单个10s视频，就能重构人物动作和场景

量子位

1+阅读 · 2022年8月21日

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

大数据文摘

1+阅读 · 2022年5月24日

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

泡泡机器人SLAM

11+阅读 · 2019年5月22日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

基于3D稀疏表示的多模态神经导航关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

PPAR β/δ基因在结直肠癌血管生成调控中的作用及分子机理

国家自然科学基金

2+阅读 · 2014年12月31日

有理映射的参数空间

国家自然科学基金

0+阅读 · 2013年12月31日

面向高速列车耦合仿真的三维虚拟高速铁路精细化实体环境建模研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多镜头组合式全景相机和GPS的车载运动平台精确定位方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于图像的室外场景光影分析与编辑

国家自然科学基金

0+阅读 · 2013年12月31日

Survivin 在瘢痕疙瘩中的作用及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

下牙槽神经、舌神经挤压伤和离断伤的磁共振成像及基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向增强现实的虚拟化身行为建模关键技术研究

国家自然科学基金

6+阅读 · 2011年12月31日

人可溶型IL-13受体α#23545;成纤维细胞胶原生成作用的研究

国家自然科学基金

0+阅读 · 2008年12月31日

Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

Arxiv

1+阅读 · 2023年5月23日

HoloDiffusion: Training a 3D Diffusion Model using 2D Images

Arxiv

0+阅读 · 2023年5月21日

Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models

Arxiv

0+阅读 · 2023年5月19日

Any-to-Any Generation via Composable Diffusion

Arxiv

1+阅读 · 2023年5月19日

Few-shot 3D Shape Generation

Arxiv

0+阅读 · 2023年5月19日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

Deep Generative Models on 3D Representations: A Survey

Arxiv

15+阅读 · 2022年10月27日

Recovering 3D Human Mesh from Monocular Images: A Survey

Arxiv

12+阅读 · 2022年3月8日

Deep Learning-Based Human Pose Estimation: A Survey

Arxiv

27+阅读 · 2020年12月24日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

VIP会员

文章信息

相关主题

相关VIP内容

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

一句话生成3D模型：AI扩散模型的突破，让建模师慌了

一句话生成3D模型：AI扩散模型的突破，让建模师慌了

机器之心

2+阅读 · 2022年11月23日

创世游戏：Diffusion Model的非数学解释

创世游戏：Diffusion Model的非数学解释

PaperWeekly

6+阅读 · 2022年11月12日

沉浸式体验飞鸟的快乐：从一张照片生成3D航拍视频

沉浸式体验飞鸟的快乐：从一张照片生成3D航拍视频

机器之心

0+阅读 · 2022年11月9日

Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

新智元

0+阅读 · 2022年10月13日

苹果把NeRF玩出新高度：只需单个10s视频，就能重构人物动作和场景

苹果把NeRF玩出新高度：只需单个10s视频，就能重构人物动作和场景

量子位

1+阅读 · 2022年8月21日

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

大数据文摘

1+阅读 · 2022年5月24日

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

泡泡机器人SLAM

11+阅读 · 2019年5月22日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

相关论文

Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

Arxiv

1+阅读 · 2023年5月23日

HoloDiffusion: Training a 3D Diffusion Model using 2D Images

Arxiv

0+阅读 · 2023年5月21日

Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models

Arxiv

0+阅读 · 2023年5月19日

Any-to-Any Generation via Composable Diffusion

Arxiv

1+阅读 · 2023年5月19日

Few-shot 3D Shape Generation

Arxiv

0+阅读 · 2023年5月19日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

Deep Generative Models on 3D Representations: A Survey

Arxiv

15+阅读 · 2022年10月27日

Recovering 3D Human Mesh from Monocular Images: A Survey

Arxiv

12+阅读 · 2022年3月8日

Deep Learning-Based Human Pose Estimation: A Survey

Arxiv

27+阅读 · 2020年12月24日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

相关基金

基于3D稀疏表示的多模态神经导航关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

PPAR β/δ基因在结直肠癌血管生成调控中的作用及分子机理

国家自然科学基金

2+阅读 · 2014年12月31日

有理映射的参数空间

国家自然科学基金

0+阅读 · 2013年12月31日

面向高速列车耦合仿真的三维虚拟高速铁路精细化实体环境建模研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多镜头组合式全景相机和GPS的车载运动平台精确定位方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于图像的室外场景光影分析与编辑

国家自然科学基金

0+阅读 · 2013年12月31日

Survivin 在瘢痕疙瘩中的作用及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

下牙槽神经、舌神经挤压伤和离断伤的磁共振成像及基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向增强现实的虚拟化身行为建模关键技术研究

国家自然科学基金

6+阅读 · 2011年12月31日

人可溶型IL-13受体α#23545;成纤维细胞胶原生成作用的研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员