生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步

会员服务 ·

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

2019 年 6 月 11 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

3D栗子发自凹非寺
本文转载自：量子位（QbitAI）

当你站在空旷的屋子里，眼神坚定地望向远方。

有只AI已经获得了你的影像，并合成了一座3D全身像。

后来，你开始解放天性，自在舞动，却惊讶地发现：

那个虚拟的自己，也在用同样的姿势起舞，并且几乎和你同步。

一切仿佛与生俱来，像是你的灵魂注入了它的身体。

这是一项中选了CVPR 2019 Oral的研究，但不止是因为效果逼真：

更重要的是，它没有用到3D形状建模 (Explicit 3D Shape Modeling) ，而是依靠2D纹理映射 (2D Texture Map) ，来完成渲染的。

而在这样的情况下，渲染依然逼真。就算是渲染没见过的新姿势，也不在话下。

到底是怎么做到的？

优秀的脑回路

论文写到，这是介于经典图形学方法与深度学习方法之间的一条路。

其中，图形学的思路就是，把几何 (Geometry) 跟纹理 (Texture) 分开处理。

几何是3D的，好比白色的人体雕塑，纹理是2D的，好比外面的皮肤。

而神经网络的任务，只限于预测从纹理到输出图之间，需要怎样的图像形变/扭曲 (Warping) 。换句话说，把2D“皮肤”贴到3D人类的身上。

具体来讲，那是一个全卷积网络，角色是生成器 (上图黄色部分) 。它要根据输入的人类姿态，以及摄像头参数，为人体的各个特征点，生成2D纹理坐标。

用这些纹理坐标，可以预测出2D的RGB图像。

反正，最终显现的效果，也是一帧接一帧的2D图。每一帧的角度有所不同，看去便是3D人像了：

就这样，完美避开了3D形状建模。

而训练过程中，网络会把每一次预测出的2D图，和Ground Truth做对比，再把损失 (Losses) 反向传播回到生成器里，增强预测能力。模型是用多视角视频数据来训练的。

训练完成后，就算你摆出AI没见过的新姿势，它也能做出成功的渲染。

团队说那是因为，保留显式的纹理表征 (Explicit Texture Representation) ，有助于提升泛化能力。

当然，没做3D形状建模，也不代表全程都在2D中度过。

别忘了，和2D纹理搭配食用的，是3D人体几何。也就是说，人类的姿态估计，是3D姿态估计。

这一部分，团队从大前辈DensePose那里，借用了精髓：把摄像头拍下的2D图中，人类的每个像素点，都映射到3D人体表面的特定位置上。

于是就有了3D姿态。还记得么，上面的2D纹理预测网络，输入就是姿态。

不用3D形状建模的3D人像合成方法，达成。

引用一句俗语：意料之外，情理之中。

来自俄罗斯

这个思路清新流畅的研究，来自莫斯科的三星AI中心，以及斯科尔科沃科技研究院。团队成员有12人之多。

如果你想要更深刻地感受这个模型的魅力，请从传送门前往观赏。

论文传送门：
https://arxiv.org/abs/1905.08776

主页传送门：
https://saic-violet.github.io/texturedavatar/

前辈DensePose传送门：
http://densepose.org/

— 完 —

CVer学术交流群

扫码添加CVer助手，可申请加入CVer-目标检测交流群、图像分割、目标跟踪、人脸检测&识别、OCR、超分辨率、SLAM、医疗影像、Re-ID和GAN等群。一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡）

▲长按加群

这么硬的招聘分享，麻烦给我一个在在看

▲长按关注我们

麻烦给我一个在看！

登录查看更多

相关内容

关注 36

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

专知会员服务

10+阅读 · 2020年3月20日

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

女神背心变内衣，只需草图画几笔 | 中山+字节跳动等新研究

量子位

5+阅读 · 2019年6月7日

能生成逼真图像的不只有 GAN

机器学习算法与Python学习

8+阅读 · 2019年6月6日

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

量子位

4+阅读 · 2019年3月20日

云从科技3D人体重建技术刷新3项纪录！仅凭照片即可生成精细模型

AI100

6+阅读 · 2019年3月20日

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

GAN生成式对抗网络

7+阅读 · 2018年12月7日

学界 | 3D形状补全新突破：MIT提出结合对抗学习形状先验的ShapeHD

机器之心

4+阅读 · 2018年10月15日

【学界】协作式生成对抗网络

GAN生成式对抗网络

8+阅读 · 2018年6月29日

DensePose：将2D图像像素映射到人体3D表面以实现高效姿态估计

论智

7+阅读 · 2018年2月5日

密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）

量子位

5+阅读 · 2018年2月4日

【学界】牛津大学ICCV 2017 Workshop论文：利用GAN的单视角图片3D建模技术

GAN生成式对抗网络

4+阅读 · 2017年9月2日

Speech2Action: Cross-modal Supervision for Action Recognition

Arxiv

7+阅读 · 2020年3月30日

Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning

Arxiv

4+阅读 · 2019年9月22日

Efficient Tracking Proposals using 2D-3D Siamese Networks on LIDAR

Arxiv

4+阅读 · 2019年3月25日

Few-shot 3D Multi-modal Medical Image Segmentation using Generative Adversarial Learning

Arxiv

9+阅读 · 2018年10月29日

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Unsupervised Neural Machine Translation with Weight Sharing

Arxiv

6+阅读 · 2018年4月24日

DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks

Arxiv

4+阅读 · 2018年4月3日

tempoGAN: A Temporally Coherent, Volumetric GAN for Super-resolution Fluid Flow

Arxiv

5+阅读 · 2018年1月29日

Semi-supervised FusedGAN for Conditional Image Generation

Arxiv

8+阅读 · 2018年1月17日

VIP会员