3D资产生成正在受到大量关注,这一趋势受到了最近文本引导的2D内容创造成功的启发。现有的文本到3D方法使用预训练的文本到图片扩散模型在一个优化问题中使用或对其在合成数据上进行微调,这通常会导致非真实感的3D对象而没有背景。在这篇论文中,我们提出了一种方法,利用预训练的文本到图片模型作为先验,并学习在单一去噪过程中从真实世界数据生成多视图图像。具体来说,我们提议将3D体积渲染和跨帧注意力层集成到现有文本到图片模型的U-Net网络的每个块中。此外,我们设计了一个自回归生成过程,能在任何视点渲染更具3D一致性的图像。我们在现实世界对象的数据集上训练我们的模型,并展示了它生成具有各种高质量形状和纹理在真实环境中实例的能力。与现有方法相比,我们方法生成的结果是一致的,并且具有较好的视觉质量(FID降低30%,KID降低37%)。

成为VIP会员查看完整内容
30

相关内容

【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
专知会员服务
19+阅读 · 2021年9月23日
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
43+阅读 · 2021年7月1日
【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐
专知会员服务
73+阅读 · 2020年6月1日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
专知会员服务
19+阅读 · 2021年9月23日
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
43+阅读 · 2021年7月1日
【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐
专知会员服务
73+阅读 · 2020年6月1日
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员