3D模型“换皮肤”有多简单？也就一句话的事

会员服务 ·

3D模型“换皮肤”有多简单？也就一句话的事

2021 年 12 月 29 日 量子位

丰色发自凹非寺
量子位报道 | 公众号 QbitAI

给灰突突的3D模型加“新皮肤”，这事儿能有多简单？

现在，只需要一句话就能搞定。

看！

一个普通小台灯，给个“Brick Lamp”的描述，瞬间变“砖块灯”：

一匹灰色小马，加上“Astronaut Horse”，摇身一变就成了“宇航马”：

操作简单不说，每一个角度上的细节和纹理也都呈现出来了。

这就是用一个专门给3D物体“换皮肤”的模型Text2Mesh做出来的，由芝加哥大学和特拉维夫大学联合打造。

是不是有点意思？

一句话给3D物体“换皮肤”

Text2Mesh模型的输入只需一个3D Mesh（无论原始图像质量高低），外加一句文字描述。

具体变换过程如下：

输入的原始网格模型mesh，顶点V∈R^n×3，表面F∈{1, . . . , n}^m×3，它们在整个训练过程中固定不变。

然后再构造一个神经风格（neural style）网络，为mesh每个顶点生成一个样式属性，后续好在整个表面上定义风格。

具体来说，该网络将网格表面p∈V上的点映射成相应的RGB颜色，并沿法线方向位移，生成一个风格化了的初始mesh。

接着从多个视图对这个mesh进行渲染。

再使用CLIP嵌入的2D增强技术让结果更逼真。

在这个过程中，渲染图像和文本提示之间的CLIP相似性得分，会被作为更新神经网络权重的信号。

整个Text2Mesh不需要预训练，也不需要专门的3D Mesh数据集，更无需进行UV参数化（将三角网格展开到二维平面）。

具体效果如何？

Text2Mesh在单个GPU上训练的时间只需不到25分钟，高质量的结果可以在10分钟之内出现。

它可以生成各种风格，并且细节还原非常到位：

再比如下面这个，不管是变雪人、忍者、蝙蝠侠、绿巨人，还是乔布斯、梅西、律师……衣服的褶皱、配饰、肌肉、发丝……等细节都可以生动呈现。

研究人员还设计了一个用户调查，将Text2Mesh与基线方法VQGAN相比。

评分涉及三个问题：1、生成的结果自然程度；2、文本与结果的匹配度；3、结果与原始图像的匹配度。

57名用户打分后，得出的结果如下：

Text2Mesh在每一项上得分都比VQGAN高。

此外，在更复杂、更特殊的文本描述之下，Text2Mesh也能hold住。

比如“由钩针编织成的闪亮的金色衣服熨斗”：

“带波纹金属的蓝钢luxo台灯”：

更厉害的是，Text2Mesh模型还可以直接使用图片驱动。

比如就给一张仙人掌的照片，也能直接把原始灰色的3D小猪变成“仙人掌风格”：

One More Thing

Text2Mesh代码已开源，在Kaggle Notebook上也有人上传了demo。感兴趣的便朋友可以一试：

最后，大家知道这是只啥么？

demo地址：
https://www.kaggle.com/neverix/text2mesh/

论文：
https://arxiv.org/abs/2112.03221

代码：
https://github.com/threedle/text2mesh

参考链接：
https://threedle.github.io/text2mesh/

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

关注 36

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

【CVPR2022】多视图聚合的大规模三维语义分割

专知会员服务

21+阅读 · 2022年4月20日

【CVPR2022】用于全身图像生成的 InsetGAN

专知会员服务

26+阅读 · 2022年3月17日

谷歌教你学 AI -机器学习的7步骤

专知会员服务

28+阅读 · 2022年3月13日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

ICCV2021 RealVSR: 业界首个移动端真实场景视频超分数据集

专知会员服务

24+阅读 · 2021年9月28日

【SIGGRAPH 2021】仅输入单张图片，就能“看”出物体材质

专知会员服务

11+阅读 · 2021年8月11日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

【2020 最新论文】对比学习中什么应该不是对比的？

专知会员服务

39+阅读 · 2020年8月16日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

我们最近又买了 6 个好用的东西

少数派

0+阅读 · 2022年3月27日

Unity震撼首发超逼真人类！4K实时渲染，头发丝儿根根分明

新智元

1+阅读 · 2022年3月27日

3张图片生成一个手办3D模型！南加州大学华人博士提出新模型NeROIC，更真实！

新智元

1+阅读 · 2022年2月24日

万物皆可JOJO：这个GAN直接让马斯克不做人啦 | Demo可玩

量子位

0+阅读 · 2021年12月26日

一个模型通杀8大视觉任务，一句话生成图像、视频、P图、视频处理...都能行 | MSRA&北大出品

量子位

0+阅读 · 2021年11月27日

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

机器之心

0+阅读 · 2021年11月26日

英伟达又一次突破想象力！一句话实时P图在线Demo可玩，「神笔马良」升级「创世纪」

THU数据派

0+阅读 · 2021年11月24日

用GAN也可以P图，效果还不输PS | 英伟达出品

量子位

0+阅读 · 2021年11月12日

头像神器！照片一键秒转简笔画，清华刘永进等CVPR 19 Oral研究 | 在线可玩

量子位

18+阅读 · 2019年6月16日

CVPR2019 oral | 这个面部3D重建模型，造出了6000多个名人的数字面具

极市平台

27+阅读 · 2019年3月9日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于语义分析的三维模型表面属性交互式编辑技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

高效3D 4H-SiC中子探测器的研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

采用隐式曲面优化过流部件形状及对核泵的应用

国家自然科学基金

0+阅读 · 2013年12月31日

微观尺度材料三维位移场与应变场的快速精密测量方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于相位突变的异种材料扩散焊缺陷超声检测和识别方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

新型可聚合缓蚀剂的合成及其在碳钢表面的原位聚合研究

国家自然科学基金

0+阅读 · 2011年12月31日

人体残肢皮肤摩擦自适应机制研究及舒适性假肢界面设计

国家自然科学基金

0+阅读 · 2011年12月31日

三维网格模型的自适应重要性采样及高质量网格重建

国家自然科学基金

1+阅读 · 2009年12月31日

Does Simultaneous Speech Translation need Simultaneous Models?

Arxiv

0+阅读 · 2022年4月20日

Sound-Guided Semantic Video Generation

Arxiv

0+阅读 · 2022年4月20日

Machine learning method for light field refocusing

Arxiv

0+阅读 · 2022年4月18日

Simultaneous Multiple-Prompt Guided Generation Using Differentiable Optimal Transport

Arxiv

0+阅读 · 2022年4月18日

Pathologies of Pre-trained Language Models in Few-shot Fine-tuning

Arxiv

1+阅读 · 2022年4月17日

StyleT2F: Generating Human Faces from Textual Description Using StyleGAN2

Arxiv

0+阅读 · 2022年4月17日

Estimation of smooth functionals in high-dimensional models: bootstrap chains and Gaussian approximation

Arxiv

0+阅读 · 2022年4月16日

Synthesizing Informative Training Samples with GAN

Arxiv

0+阅读 · 2022年4月15日

PL-VINS: Real-Time Monocular Visual-Inertial SLAM with Point and Line Features

Arxiv

1+阅读 · 2022年4月15日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

VIP会员