生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步

会员服务 ·

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

2019 年 6 月 10 日 量子位

3D栗子发自凹非寺
量子位出品 | 公众号 QbitAI

当你站在空旷的屋子里，眼神坚定地望向远方。

有只AI已经获得了你的影像，并合成了一座3D全身像。

后来，你开始解放天性，自在舞动，却惊讶地发现：

那个虚拟的自己，也在用同样的姿势起舞，并且几乎和你同步。

一切仿佛与生俱来，像是你的灵魂注入了它的身体。

这是一项中选了CVPR 2019 Oral的研究，但不止是因为效果逼真：

更重要的是，它没有用到3D形状建模 (Explicit 3D Shape Modeling) ，而是依靠2D纹理映射 (2D Texture Map) ，来完成渲染的。

而在这样的情况下，渲染依然逼真。就算是渲染没见过的新姿势，也不在话下。

到底是怎么做到的？

优秀的脑回路

论文写到，这是介于经典图形学方法与深度学习方法之间的一条路。

其中，图形学的思路就是，把几何 (Geometry) 跟纹理 (Texture) 分开处理。

几何是3D的，好比白色的人体雕塑，纹理是2D的，好比外面的皮肤。

而神经网络的任务，只限于预测从纹理到输出图之间，需要怎样的图像形变/扭曲 (Warping) 。换句话说，把2D“皮肤”贴到3D人类的身上。

具体来讲，那是一个全卷积网络，角色是生成器 (上图黄色部分) 。它要根据输入的人类姿态，以及摄像头参数，为人体的各个特征点，生成2D纹理坐标。

用这些纹理坐标，可以预测出2D的RGB图像。

反正，最终显现的效果，也是一帧接一帧的2D图。每一帧的角度有所不同，看去便是3D人像了：

就这样，完美避开了3D形状建模。

而训练过程中，网络会把每一次预测出的2D图，和Ground Truth做对比，再把损失 (Losses) 反向传播回到生成器里，增强预测能力。模型是用多视角视频数据来训练的。

训练完成后，就算你摆出AI没见过的新姿势，它也能做出成功的渲染。

团队说那是因为，保留显式的纹理表征 (Explicit Texture Representation) ，有助于提升泛化能力。

当然，没做3D形状建模，也不代表全程都在2D中度过。

别忘了，和2D纹理搭配食用的，是3D人体几何。也就是说，人类的姿态估计，是3D姿态估计。

这一部分，团队从大前辈DensePose那里，借用了精髓：把摄像头拍下的2D图中，人类的每个像素点，都映射到3D人体表面的特定位置上。

于是就有了3D姿态。还记得么，上面的2D纹理预测网络，输入就是姿态。

不用3D形状建模的3D人像合成方法，达成。

引用一句俗语：意料之外，情理之中。

来自俄罗斯

这个思路清新流畅的研究，来自莫斯科的三星AI中心，以及斯科尔科沃科技研究院。团队成员有12人之多。

如果你想要更深刻地感受这个模型的魅力，请从传送门前往观赏。

论文传送门：
https://arxiv.org/abs/1905.08776

主页传送门：
https://saic-violet.github.io/texturedavatar/

前辈DensePose传送门：
http://densepose.org/

— 完 —

小程序|全类别AI学习教程

AI社群|与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

关注 36

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

专知会员服务

10+阅读 · 2020年3月20日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

你跳宅舞的样子很专业：不，这都是AI合成的结果

机器之心

11+阅读 · 2019年9月28日

CVPR 2019 | 旷视研究院提出一种行人重识别监督之下的纹理生成网络

极市平台

5+阅读 · 2019年7月3日

能生成逼真图像的不只有 GAN

机器学习算法与Python学习

8+阅读 · 2019年6月6日

CVPR 2019 Oral | Relation-Shape CNN：以几何关系卷积推理点云3D形状

机器之心

5+阅读 · 2019年4月29日

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

量子位

4+阅读 · 2019年3月20日

云从科技3D人体重建技术刷新3项纪录！仅凭照片即可生成精细模型

AI100

6+阅读 · 2019年3月20日

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

GAN生成式对抗网络

7+阅读 · 2018年12月7日

pix2pix 3D版：几笔线条生成超炫猫咪霹雳舞！

新智元

4+阅读 · 2018年9月19日

CVPR 2018 | Spotlight论文：变分U-Net，可按条件独立变换目标的外观和形状

极市平台

6+阅读 · 2018年4月24日

密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）

量子位

5+阅读 · 2018年2月4日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

Arxiv

8+阅读 · 2020年3月12日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

Occupancy Networks: Learning 3D Reconstruction in Function Space

Arxiv

10+阅读 · 2018年12月10日

Attentive Convolution: Equipping CNNs with RNN-style Attention Mechanisms

Arxiv

3+阅读 · 2018年11月13日

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

3D-SSD: Learning Hierarchical Features from RGB-D Images for Amodal 3D Object Detection

Arxiv

8+阅读 · 2018年2月21日

VIP会员