Diffusion models have recently become the de-facto approach for generative modeling in the 2D domain. However, extending diffusion models to 3D is challenging due to the difficulties in acquiring 3D ground truth data for training. On the other hand, 3D GANs that integrate implicit 3D representations into GANs have shown remarkable 3D-aware generation when trained only on single-view image datasets. However, 3D GANs do not provide straightforward ways to precisely control image synthesis. To address these challenges, We present Control3Diff, a 3D diffusion model that combines the strengths of diffusion models and 3D GANs for versatile, controllable 3D-aware image synthesis for single-view datasets. Control3Diff explicitly models the underlying latent distribution (optionally conditioned on external inputs), thus enabling direct control during the diffusion process. Moreover, our approach is general and applicable to any type of controlling input, allowing us to train it with the same diffusion objective without any auxiliary supervision. We validate the efficacy of Control3Diff on standard image generation benchmarks, including FFHQ, AFHQ, and ShapeNet, using various conditioning inputs such as images, sketches, and text prompts. Please see the project website (\url{https://jiataogu.me/control3diff}) for video comparisons.


翻译:扩散模型最近已成为二维域中生成模型的标准方法。然而,在获取用于训练的三维真实数据方面,将扩散模型扩展到三维领域是具有挑战性的。另一方面,将隐式三维表示集成到生成对抗网络中的三维生成对抗网络在仅用单视角图像数据集进行训练时展现出了显著的三维感知生成效果。然而,三维生成对抗网络并没有提供精确控制图像合成的简单方式。为了解决这些问题,我们提出了Control3Diff,这是一种三维扩散模型,它结合了扩散模型和三维生成对抗网络的优势,用于单视角数据集的多样化、可控的三维感知图像合成。Control3Diff明确地对潜在分布进行建模(可根据外部输入进行条件化),从而在扩散过程中实现直接控制。此外,我们的方法是通用的,适用于任何类型的控制输入,允许我们在没有任何辅助监督的情况下使用相同的扩散目标进行训练。我们利用图像、草图和文本提示等各种条件输入,在标准图像生成基准测试中验证了Control3Diff的有效性,包括FFHQ、AFHQ和ShapeNet。请参见项目网站(\url {https://jiataogu.me/control3diff})进行视频比较。

0
下载
关闭预览

相关内容

港科大陈启峰博士:AIGC的现状与展望
专知会员服务
75+阅读 · 2023年1月17日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
DeepMind开源最牛无监督学习BigBiGAN预训练模型
新智元
10+阅读 · 2019年10月10日
【ICML2019】IanGoodfellow自注意力GAN的代码与PPT
GAN生成式对抗网络
18+阅读 · 2019年6月30日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Arxiv
13+阅读 · 2022年10月27日
Arxiv
29+阅读 · 2022年9月10日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
Arxiv
27+阅读 · 2020年12月24日
VIP会员
相关VIP内容
港科大陈启峰博士:AIGC的现状与展望
专知会员服务
75+阅读 · 2023年1月17日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员