一句话生成3D模型：AI扩散模型的突破，让建模师慌了

会员服务 ·

一句话生成3D模型：AI扩散模型的突破，让建模师慌了

2022 年 11 月 23 日 机器之心

机器之心报道

编辑：泽南、小舟

英伟达进入 AI 生成模型领域的研究，直接比别人多一个次元：一句描述生成 3D 模型。

我们生活在三维的世界里，尽管目前大多数应用程序是 2D 的，但人们一直对 3D 数字内容有很高的需求，包括游戏、娱乐、建筑和机器人模拟等应用。

然而，创建专业的 3D 内容需要很高的艺术与审美素养和大量 3D 建模专业知识。人工完成这项工作需要花费大量时间和精力来培养这些技能。

需求大又是「劳动密集型行业」，那么有没有可能交给 AI 来做？上周五，英伟达提交到预印版论文平台 arXiv 的论文引起了人们的关注。

和现在流行的 NovelAI 差不多，人们只需要输入一段文字比如「一只坐在睡莲上的蓝色箭毒蛙」，AI 就能给你生成个纹理造型俱全的 3D 模型出来。

Magic3D 还可以执行基于提示的 3D 网格编辑：给定低分辨率 3D 模型和基本提示，可以更改文本从而修改生成的模型内容。此外，作者还展示了保持画风，以及将 2D 图像样式应用于 3D 模型的能力。

Stable Diffusion 的论文在 2022 年 8 月才首次提交，几个月就已经进化到这样的程度，不禁让人感叹科技发展的速度。

英伟达表示，你只需要在这个基础上稍作修改，生成的模型就可以当做游戏或 CGI 艺术场景的素材了。

3D 生成模型的方向并不神秘，其实在 9 月 29 日，谷歌曾经发布过一款文本到 3D 的生成模型 DreamFusion，英伟达在 Magic3D 的研究中直接对标该方法。

类似于 DreamFusion 用文本生成 2D 图像，再将其优化为体积 NeRF（神经辐射场）数据的流程，Magic3D 使用两阶段生成法，用低分辨率生成的粗略模型再优化到更高的分辨率。

英伟达的方法首先使用低分辨率扩散先验获得粗糙模型，并使用稀疏 3D 哈希网格结构进行加速。用粗略表示作为初始，再进一步优化了带纹理的 3D 网格模型，该模型具有与高分辨率潜在扩散模型交互的高效可微分渲染器。

Magic3D 可以在 40 分钟内创建高质量的 3D 网格模型，比 DreamFusion 快 2 倍（后者平均需要 1.5 小时），同时还实现了更高的分辨率。统计表明相比 DreamFusion，61.7% 的人更喜欢英伟达的新方法。

连同图像调节生成功能，新技术为各种创意应用开辟了新途径。

论文链接： https://arxiv.org/abs/2211.10440

技术细节

Magic3D 可以在较短的计算时间内根据文本 prompt 合成高度详细的 3D 模型。Magic3D 通过改进 DreamFusion 中的几个主要设计选择来使用文本 prompt 合成高质量的 3D 内容。

具体来说，Magic3D 是一种从粗到精的优化方法，其中使用不同分辨率下的多个扩散先验来优化 3D 表征，从而生成视图一致的几何形状以及高分辨率细节。Magic3D 使用监督方法合成 8 倍高分辨率的 3D 内容，速度也比 DreamFusion 快 2 倍。

Magic3D 的整个工作流程分为两个阶段：在第一阶段，该研究优化了类似于 DreamFusion 的粗略神经场表征，以实现具有基于哈希网格（hash grid）的内存和计算的高效场景表征。

在第二阶段该方法切换到优化网格表征。这个步骤很关键，它允许该方法在高达 512 × 512 的分辨率下利用扩散先验。由于 3D 网格适用于快速图形渲染，可以实时渲染高分辨率图像，因此该研究利用基于光栅化的高效微分渲染器和相机特写来恢复几何纹理中的高频细节。

基于上述两个阶段，该方法可以生成高保真的 3D 内容，并且很容易在标准图形软件中导入和可视化。

此外，该研究展示了用文本 prompt 对 3D 合成过程的创造性控制能力，如下图 1 所示。

为了对比实际应用效果，英伟达的研究人员把 Magic3D 和 DreamFusion 在 397 个文本提示生成的内容上进行了比较。平均的粗略模型生成阶段花费 15 分钟，精细阶段训练了 25 分钟，所有运行时间均在 8 块英伟达 A100 GPU 上测得。

虽然论文和 demo 只是第一步，但英伟达已经为 Magic3D 想好了未来的应用方向：给游戏和元宇宙世界提供制作海量 3D 模型的工具，而且让所有人都可以上手使用。

当然，最早上线这项功能的可能会是英伟达自己的 Omniverse。

参考内容：https://arstechnica.com/information-technology/2022/11/nvidias-magic3d-creates-3d-models-from-written-descriptions-thanks-to-ai/

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

关注 36

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

人工智能内容生成(AIGC)报告，43页ppt

专知会员服务

208+阅读 · 2022年12月26日

基于条件扩散模型的文本到图像合成, 32页ppt

专知会员服务

26+阅读 · 2022年11月21日

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

专知会员服务

49+阅读 · 2022年11月17日

【NeurIPS 2022】扩散模型的深度平衡方法

专知会员服务

40+阅读 · 2022年11月5日

CVPR2022开会了！英伟达&Google最新《基于扩散的去噪生成建模:基础与应用》教程，182页ppt带你学习高保真图像生成

专知会员服务

94+阅读 · 2022年6月18日

【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法

专知会员服务

26+阅读 · 2022年4月20日

【Yoshua Bengio】生成式流网络，Generative Flow Networks

专知会员服务

32+阅读 · 2022年3月19日

【CVPR2022】用于全身图像生成的 InsetGAN

专知会员服务

26+阅读 · 2022年3月17日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

英伟达「一句话生成3D模型」碾压谷歌：分辨率清晰8倍，速度快2倍，编辑文本还可直接修改

量子位

1+阅读 · 2022年11月22日

英伟达入局AIGC！Magic3D新模型力压谷歌DreamFusion

新智元

1+阅读 · 2022年11月22日

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

机器之心

0+阅读 · 2022年11月11日

一句话生成3D模型，但只需2D数据训练｜谷歌&UC Berkeley

量子位

0+阅读 · 2022年10月4日

1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

新智元

2+阅读 · 2022年9月30日

苹果发布新模型GAUDI：只用文字就能生成无限制3D模型！

新智元

2+阅读 · 2022年8月6日

5秒手机猫片也能重建猫咪3D模型，Meta提出新算法为变形物体建模 | CVPR 2022

量子位

1+阅读 · 2022年3月4日

优于GAN、带上口罩都能还原，用去噪扩散概率模型极限修复图像，效果「真」极了

机器之心

0+阅读 · 2022年1月26日

3D模型“换皮肤”有多简单？也就一句话的事

量子位

0+阅读 · 2021年12月29日

用扩散模型生成高保真度图像

TensorFlow

1+阅读 · 2021年8月17日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

计算机素描艺术的几何分析与并行化计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向三维服装建模的形状分析与处理方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

带跳扩散模型的非参数统计推断研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于部分参考图像质量评估的二维矢量图形快速渲染技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

海洋场景的混合型建模与绘制的关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于全景模型的室内虚拟环境建模方法

国家自然科学基金

1+阅读 · 2012年12月31日

基于体映射的修复用人体骨骼支架模型生成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多粒度视频基元的中国手语合成方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

simple diffusion: End-to-end diffusion for high resolution images

Arxiv

1+阅读 · 2023年1月26日

Diverse Single Image Generation with Controllable Global Structure

Arxiv

0+阅读 · 2023年1月25日

Accelerate & Actualize: Can 2D Materials Bridge the Gap Between Neuromorphic Hardware and the Human Brain?

Arxiv

0+阅读 · 2023年1月24日

Long-term stable Electromyography classification using Canonical Correlation Analysis

Arxiv

0+阅读 · 2023年1月23日

Intelligent Painter: Picture Composition With Resampling Diffusion Model

Arxiv

0+阅读 · 2023年1月23日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

A Mathematical Introduction to Generative Adversarial Nets (GAN)

Arxiv

27+阅读 · 2020年9月1日

已删除

Arxiv

32+阅读 · 2020年3月23日

Dynamic Graph Neural Networks

Arxiv

24+阅读 · 2018年10月24日

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

VIP会员