英伟达「一句话生成3D模型」碾压谷歌：分辨率清晰8倍，速度快2倍，编辑文本还可直接修改

会员服务 ·

英伟达「一句话生成3D模型」碾压谷歌：分辨率清晰8倍，速度快2倍，编辑文本还可直接修改

2022 年 11 月 22 日 量子位

丰色发自凹非寺
量子位 | 公众号 QbitAI

一句话生成3D模型，英伟达也来“秀肌肉”了～

来看它最新捣鼓出的Magic3D AI，效果是这样儿的。

输入“坐在睡莲上的蓝色箭毒蛙”，就能得到这样一个细节丰富的3D模型：

“摆满了水果的银盘”也难不倒它：

还有诸如“鸟瞰角度的城堡”、“用寿司做的汽车”、“装着蛋的鸟巢”、“用垃圾袋做的裙子”……

精准程度可见一斑。

除了这个主要本领，它还可以通过编辑文本完成模型的修改：

或者在输入中携带一些图片，最终成果就可以保留图中的风格或者主要“人物”。

不知道这把有没有打到你的心巴上？

反正建模师看了都要喊失业了……

如何做到？

据介绍，Magic3D快速、高质量地得到结果所采用的策略是“从粗到细”，一共经过两阶段：

低分辨率优化和高分辨率优化。

它使用eDiff-l作为模型的低分辨率文本到图像扩散先验（diffusion prior）。

首先，第一阶段，采用英伟达今年推出的3D重建模型Instant NGP，并对其优化，生成初始3D模型。

具体来说，就是通过重复采样和渲染低分辨率图像，计算出SDS损失，让Instant NGP给出结果。

注：SDS全称得分蒸馏采样（Score Distillation Sampling），是谷歌提出的一种新的采样方法，它无需对扩散模型进行反向传播更新。

这步完成后，就使用DMTet提取出初始3D mesh，作为第二阶段的输入。

第二阶段采用高分辨率文本到图像潜（latent）扩散先验。

还是使用同样的方法，对高分辨率图像进行采样和渲染，并使用相同的步骤进行更新，得到最终结果。

唯一的不同，就是本阶段的操作都是在第一阶段得出的初始“糙”模型上进行的。

比DreamFusion分辨率高8倍，速度快2倍

关注这一领域的朋友知道，一句话生成3D模型的AI中，目前最受关注的当属谷歌今年9月刚发布的DreamFusion。

它通过一个预先训练的二维文本到图像扩散模型来完成最终的文本到三维合成，效果惊艳。

那么，英伟达刚推出的这个Magic3D，与之相比如何？

经实验对比发现，后来者显然更胜一筹，主要表现在分辨率和速度上：

Magic3D的分辨率比DreamFusion高8倍，速度快2倍——只需在40分钟之内即可完成一次渲染。

而在具体效果上，Magic3D的生成结果也更细节一些，比如下面的“仙人掌”、“房子”和“草莓”等（左为Magic3D，右为DreamFusion）。

不过，遗憾的是，Magic3D还并未像DreamFusion一样已开源。

关于作者

一共有10位。

前5位都具有同等贡献，包括：

现英伟达研究科学家、博士毕业于CMU机器人专业的Lin Chen-Hsuan，他曾在Facebook人工智能研究部和Adobe实习；

正在多伦多大学读博士的Gao Jun，北大计算机本科毕业；

正在多伦多读博士的Zeng Xiaohui，香港科技大学毕业；

以及同样来自该大学的Towaki Takikawa；

最后是正在康奈尔大学读博士的唐路明，清华大学物理和数学专业本科毕业。

论文地址：
https://arxiv.org/abs/2211.10440

项目主页：
https://deepimagination.cc/Magic3D/

参考链接：
https://twitter.com/_akhaliq/status/1594505474774278147?s=46&t=Dc0f1ExmRsdk_PHz2JX-IA

— 完 —

「2022人工智能年度评选」即将截止报名！

仅剩2天！量子位「2022人工智能年度评选」将从企业、人物、产品/解决方案三大维度设置5类奖项，抓紧时间参与吧！

更多关于评选标准、榜单报名欢迎扫描下方二维码～

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

3D模型

关注 0

基于条件扩散模型的文本到图像合成, 32页ppt

专知会员服务

26+阅读 · 2022年11月21日

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

专知会员服务

49+阅读 · 2022年11月17日

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

专知会员服务

22+阅读 · 2022年7月7日

【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法

专知会员服务

26+阅读 · 2022年4月20日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【MM 2021】基于单张图像的多风格说话人合成，Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis

专知会员服务

6+阅读 · 2022年3月22日

谷歌教你学 AI -机器学习的7步骤

专知会员服务

28+阅读 · 2022年3月13日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

专知会员服务

14+阅读 · 2020年3月8日

一句话生成3D模型：AI扩散模型的突破，让建模师慌了

机器之心

2+阅读 · 2022年11月23日

英伟达入局AIGC！Magic3D新模型力压谷歌DreamFusion

新智元

1+阅读 · 2022年11月22日

一句话生成3D模型，但只需2D数据训练｜谷歌&UC Berkeley

量子位

0+阅读 · 2022年10月4日

真·拿嘴做视频！Meta「AI导演」一句话搞定视频素材，网友：我已跟不上AI发展速度

量子位

1+阅读 · 2022年9月30日

谷歌华人研究员发布MobileNeRF，渲染3D模型速度提升10倍

新智元

0+阅读 · 2022年8月7日

AI作画新高度！谷歌发布imagen，效果惊艳全场

夕小瑶的卖萌屋

0+阅读 · 2022年5月25日

重磅！谷歌用扩散模型来生成视频了！刷新SOTA

CVer

1+阅读 · 2022年4月12日

视频也可以用扩散模型来生成了，效果很能打：新SOTA已达成 | 谷歌

量子位

1+阅读 · 2022年4月11日

一张照片就能生成3D模型，GAN和自动编码器碰撞出奇迹，苏黎世联邦理工学院出品

量子位

0+阅读 · 2022年3月2日

3D模型“换皮肤”有多简单？也就一句话的事

量子位

0+阅读 · 2021年12月29日

GPU加速和风格感知的艺术图像和谐克隆

国家自然科学基金

4+阅读 · 2014年12月31日

液态锑金属阳极直接碳燃料电池反应机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

最大化泊松盘采样方法及其在媒体处理中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

桌面云的高性能桌面图像压缩与传输关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

结合2D图像和3D点云数据的城市建筑物重建关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

青藏高原表层土壤湿度卫星微波遥感研究

国家自然科学基金

0+阅读 · 2012年12月31日

语义驱动的个性化虚拟人重建技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

空间编码可控的快速MRI高分辨率图像稀疏重建

国家自然科学基金

1+阅读 · 2012年12月31日

基于沉浸边界法的气固两相湍流全分辨率直接数值模拟

国家自然科学基金

0+阅读 · 2009年12月31日

Trainable Loss Weights in Super-Resolution

Arxiv

1+阅读 · 2023年1月25日

Mesostructures: Beyond Spectrogram Loss in Differentiable Time-Frequency Analysis

Arxiv

0+阅读 · 2023年1月24日

Solving the Discretised Neutron Diffusion Equations using Neural Networks: Applications in neutron transport

Arxiv

0+阅读 · 2023年1月24日

Mind the Gap -- Modelling Difference Between Censored and Uncensored Electric Vehicle Charging Demand

Arxiv

0+阅读 · 2023年1月24日

Intelligent Painter: Picture Composition With Resampling Diffusion Model

Arxiv

0+阅读 · 2023年1月23日

Artificial Intelligence for the Metaverse: A Survey

Arxiv

31+阅读 · 2022年2月15日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

已删除

Arxiv

33+阅读 · 2020年3月23日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

Learning Hierarchical Features for Visual Object Tracking with Recursive Neural Networks

Arxiv

13+阅读 · 2018年1月6日

VIP会员