一句话生成3D模型，但只需2D数据训练｜谷歌&UC Berkeley

会员服务 ·

一句话生成3D模型，但只需2D数据训练｜谷歌&UC Berkeley

2022 年 10 月 4 日 量子位

Pine 发自凹非寺
量子位 | 公众号 QbitAI

用2D数据训练出来的模型，也能生成3D图像了。

输入简单的文本提示，就能生成3D模型，这个“AI画师”的技术如何？

直接看效果。

它生成的3D模型还具有密度、颜色。

并且能够在不同的光照条件进行渲染。

不仅如此，它甚至可以把生成的多个3D模型融合到一个场景里。

更重要的是，生成的3D模型还可以导出到网格中，用建模软件进一步加工。

这简直就是高阶版的NeRF，而这个AI画师呢，名叫DreamFusion，是Google Research的一个最新成果。

DreamFusion名字是不是听起来有点耳熟？

没错，DreamFields！前不久，还有个中国小哥基于这个模型开源了一个AI作画程序。

而这次的DreamFusion正是在DreamFields的基础上进化而来的。

那从DreamFields到DreamFusion，都有哪些变化，让DreamFusion有如此巨大的飞跃？

扩散模型是关键

一句话来讲，DreamFusion与DreamFields之间最大的不同就是计算损失的方法不同。

在最新的DreamFusion中，它用了一个新的损失计算方法来代替CLIP：通过文本到图像的Imagen扩散模型来计算损失。

扩散模型大家今年应该都很熟悉了吧，DreamFusion由数十亿图像-文本对的扩散模型驱动，相当于一个由扩散模型优化之后的NeRF，想不厉害都难。

不过要把扩散模型直接用来进行3D合成需要大规模的标记3D数据集和有效的3D数据去噪架构，但目前这两个都还没有，只能另谋出路。

因此在这项工作中，研究人员巧妙地避开这些限制，使用一个预先训练的二维文本到图像扩散模型来执行文本到三维合成。

具体来说，就是用Imagen扩散模型来计算生成3D图像过程中的损失，对3D模型进行优化，那损失是如何计算呢？

这其中有很关键的一环，研究人员引入一个新的图像采样方法：评分蒸馏采样 （SDS），它在参数空间而不是像素空间中进行采样。

因为参数的限制，这种方法能够很好的控制生成图像的质量走向（下图右）。

而这里，就是用评分蒸馏采样来表示生成过程中的损失，通过不断优化最小化这种损失，从而输出质量良好的3D模型。

值得一提的是，DreamFusion在生成图像的过程中，里面的参数会经过优化，成为扩散模型的一个训练样本，经过扩散模型训练之后的参数具备多尺度特性，更利于后续的图像生成。

除此之外，扩散模型带来的还有很重要的一点是：不需要反向传播，这是因为扩散模型能够直接预测更新的方向。

网友讨论

这波研究成果属实是惊呆网友了，前脚Meta刚发布text-video，后脚谷歌这边就发布了text-3D的模型。

（还是用2D扩散模型输出3D图像）

甚至有网友发问：

下一版本的高分辨率3D成果什么时候会出来？两年吗？

论文的一作直接在下方调侃地评论道：

两周？

当然这个AI技术成果也免不了激起那个老生常谈的话题——会不会取代人类。

不过大多数人还是抱着很乐观的心态：

作为一个3D建模师/设计师，未来（AI）用于模型设计辅助的潜力也是难以置信的。

（小彩蛋）有网友挖出了DreamFusion的一些有趣的失败案例：

比如说生成的这只松鼠，在它的帽衫后面又多出了一只眼睛（也怪吓人的）。

团队介绍

研究团队中有三位均来自Google Research，分别为论文的一作Ben Poole，Jon Barron和Ben Mildenhall，还有一位加州大学伯克利分校的博士生。

Google Research是Google公司内部进行各种最先进技术研究的部门，他们也有自己的开源项目，在GitHub公开。

他们的口号是：我们的团队渴望做出影响每个人的发现，我们的方法的核心是分享我们的研究和工具，以推动该领域的进展。

一作Ben Poole是斯坦福大学神经学博士，也是谷歌大脑的研究员，目前他的研究重点是使用生成模型改进无监督和半监督学习的算法。

参考链接：
[1]https://dreamfusion3d.github.io/index.html
[2]https://twitter.com/poolio/status/1575618598805983234

— 完 —

「2022人工智能年度评选」火热报名中

现在，量子位「2022人工智能年度评选」已经正式启幕，评选将从企业、人物、产品/解决方案三大维度设置5类奖项。

更多关于评选标准、榜单报名欢迎扫描下方二维码～

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

3D模型

关注 0

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法

专知会员服务

26+阅读 · 2022年4月20日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

【CVPR2021】GAN人脸预训练模型

专知会员服务

24+阅读 · 2021年4月10日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

一句话生成3D模型：AI扩散模型的突破，让建模师慌了

机器之心

2+阅读 · 2022年11月23日

英伟达「一句话生成3D模型」碾压谷歌：分辨率清晰8倍，速度快2倍，编辑文本还可直接修改

量子位

1+阅读 · 2022年11月22日

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

机器之心

0+阅读 · 2022年11月11日

谷歌P图神器来了！不用学不用教，输入一句话，分分钟给结果

量子位

0+阅读 · 2022年11月6日

3D版DALL-E来了！谷歌发布文本3D生成模型DreamFusion，重点是zero-shot

新智元

0+阅读 · 2022年10月8日

无需多视图！Google重磅升级NeRF：仅需一张平面图即可生成3D模型

新智元

3+阅读 · 2022年9月20日

谷歌用新AI超越自己：让Imagen能够指定生成对象，风格还能随意转换

量子位

0+阅读 · 2022年8月27日

苹果发布新模型GAUDI：只用文字就能生成无限制3D模型！

新智元

2+阅读 · 2022年8月6日

3D模型“换皮肤”有多简单？也就一句话的事

量子位

0+阅读 · 2021年12月29日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

基于三维景物重构成技术的文物数字化与虚拟展示

国家自然科学基金

1+阅读 · 2014年12月31日

基于三维信息单元的高质量虚拟视点绘制技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多视照片全局约束下的Kinect在线室内三维测图技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

南方红壤水土流失区植被覆盖与管理因子（C因子）遥感重建研究

国家自然科学基金

0+阅读 · 2013年12月31日

高清实时计算全息三维显示的数据压缩编码技术

国家自然科学基金

0+阅读 · 2012年12月31日

对象模型上交互式修复生成技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

用于非对称语料的语音转换函数训练算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

苹果树冠层三维重建及光照分布计算方法

国家自然科学基金

0+阅读 · 2012年12月31日

批次过程数据模量驱动的分布中心匹配故障诊断研究

国家自然科学基金

0+阅读 · 2011年12月31日

声纹识别中合成语音的鲁棒性研究

国家自然科学基金

1+阅读 · 2009年12月31日

Learning 3D Scene Priors with 2D Supervision

Arxiv

0+阅读 · 2022年11月25日

3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models

Arxiv

0+阅读 · 2022年11月25日

Language-Assisted 3D Feature Learning for Semantic Scene Understanding

Arxiv

0+阅读 · 2022年11月25日

Generating 2D and 3D Master Faces for Dictionary Attacks with a Network-Assisted Latent Space Evolution

Arxiv

0+阅读 · 2022年11月25日

Neural Graph Databases

Arxiv

0+阅读 · 2022年11月24日

Immersive Neural Graphics Primitives

Arxiv

0+阅读 · 2022年11月24日

ActFormer: A GAN-based Transformer towards General Action-Conditioned 3D Human Motion Generation

Arxiv

0+阅读 · 2022年11月23日

FLNeRF: 3D Facial Landmarks Estimation in Neural Radiance Fields

Arxiv

0+阅读 · 2022年11月22日

Understanding Diffusion Models: A Unified Perspective

Arxiv

14+阅读 · 2022年8月25日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

VIP会员