无需任何标记数据，几张照片就能还原出3D物体结构，自监督学习还能这样用

会员服务 ·

无需任何标记数据，几张照片就能还原出3D物体结构，自监督学习还能这样用

2020 年 12 月 5 日 量子位

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

只给你几张物体的照片，你能准确还原出它在各种刁钻视角下的模样吗？

现在，AI可能比你还原得还要准确。

只给几个3D球的正脸照片：

AI立刻就能将不同视角的球形照片还原出来，大小颜色都接近真实的照片。

稍微复杂一点的结构，如这堆椅子：

AI在经过思考后，也能立即给出椅子在另一视角下的照片，结构大小与真实场景相比，几乎没有跑偏。

这还是在完全没有给出物体深度、边界框的情况下，AI模型纯粹靠自己预测出来的3D效果。

那么，这样的模型到底是怎么做出来的呢？

给模型安排一个“批评家”

这是一个由CNN和MLP（多层感知器）组成的模型，其目的在于通过一组2D图片（不带任何标签），从中还原出物体的3D关系来。

相比于单个3D物体，这个模型能够在整个场景上进行3D训练，并将它还原出来。

例如，根据下图的几张兔子照片，还原出3D兔子模型在俯视角度下拍摄的照片。

但从2D照片中还原出物体的3D关系，并不如看起来这么简单。

在还原过程中，模型不仅要准确推断每个3D物体的位置、深度、大小，还要能还原出它的光照颜色。

通常训练神经网络的第一想法是，将这几个变量直接设为参数，并采用梯度下降算法对模型进行收敛。

但这样效果会很差，因为模型在想办法“偷懒”。

将损失降低到一定程度后，它就不再寻找更好的解决方案。

例如，下图真实目标（蓝色）与当前目标（红色）有差异，然而在进行梯度下降时，尝试移动一定距离，误差没有降低；但在改变大小时，误差却降低了，就对网络模型形成了误导。

对此，研究者利用强化学习中的好奇心驱动，额外给模型加了一个“批评家”（critic）网络，它会利用数据分布中随机提取的有效样本，来褒贬模型的结果。

这样，模型作为“表演者”（actor），为了获得更好的评价，就会再试图去寻找更好的方法，以生成更优的结果。

如下图所示，左边是没有利用好奇心驱动的模型，右边则是加入了好奇心驱动。在“批评家”的驱使下，模型逐渐推导出了正确的参数。

这一“批评家”网络，迫使模型在优化过程中，不能只依赖于同一种（错误的）答案，而是必须在已有数据下寻找更好的解决方案。

事实证明，加了“批评家”网络的模型，不仅收敛下降到了一个新的高度（如上图蓝色线条），而且评论家最终给出的评分也不错。

那么，相比于其他3D关系生成模型，这一结构的优势在哪里呢？

无需任何外部标记，2D还原3D关系

作者与其他模型进行了详细对比，这些模型涵盖不同的3D还原方法，包括深度图、CNN、立体像素、网格等。

在监督学习所用到的参数上，可用的包括深度、关键点、边界框、多视图4类；而在测试部分，则包括2D转3D、语义和场景3种方式。

可以看见，绝大多数网络都没办法同时实现2D转3D、在还原场景的同时还能包含清晰的语义。

即使有两个网络也实现了3种方法，他们也采用了深度和边界框两种参数进行监督，而非完全通过自监督进行模型学习。

这一方法，让模型在不同的数据集上都取得了不错的效果。

无论是椅子、球体数据集，还是字母、光影数据集上，模型训练后生成的各视角照片都挺能打。

甚至自监督的方式，还比加入5%监督（Super5）和10%监督（Super10）的效果都要更好，误差基本更低。

而在真实场景上，模型也能还原出照片中的3D物体形状。

例如给出一只兔子的照片，在进行自监督训练后，相比于真实照片，模型基本还原出了兔子的形状和颜色。

不仅单个物体，场景中的多个3D物体也都能同时被还原出来。

当然，这也离不开“好奇心驱动”这种方法的帮助。

事实上，仅仅是增加“好奇心驱动”这一部分，就能降低不少参数错误率，原模型（NonCur）与加入好奇心驱动的模型（Our）在不同数据集上相比，错误率平均要高出10%以上。

不需要任何外部标记，这一模型利用几张照片，就能生成3D关系、还原场景。

作者介绍

3位作者都来自伦敦大学学院。

一作David Griffiths，目前在UCL读博，研究着眼于开发深度学习模型以了解3D场景，兴趣方向是计算机视觉、机器学习和摄影测量，以及这几个学科的交叉点。

Jan Boehm，UCL副教授，主要研究方向是摄影测量、图像理解和机器人技术。

Tobias Ritschel，UCL计算机图形学教授，研究方向主要是图像感知、非物理图形学、数据驱动图形学，以及交互式全局光照明算法。

有了这篇论文，设计师出门拍照的话，还能顺便完成3D作业？

论文地址：
https://arxiv.org/abs/2012.01230

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

量子位年度智能商业大会启幕，大咖已就位！

12月16日，李开复博士、尹浩院士、清华唐杰教授，以及来自小米、美团、爱奇艺、小冰、亚信、浪潮、容联、澎思、地平线、G7等知名AI大厂的大咖嘉宾将齐聚MEET2021大会，期待关注AI的朋友报名参会、共探新形势下智能产业发展之路。

▽早鸟票限时优惠，扫码锁定席位吧~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

关注 36

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

专知会员服务

26+阅读 · 2021年1月18日

【AAAI2021】基于内容迁移的无监督领域自适应语义分割

专知会员服务

18+阅读 · 2020年12月25日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

14+阅读 · 2020年6月18日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

27+阅读 · 2020年3月18日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++

PaperWeekly

4+阅读 · 2019年11月8日

业界 | 单个运动摄像头估计运动物体深度，谷歌挑战新难题

AI科技评论

3+阅读 · 2019年6月4日

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

量子位

4+阅读 · 2019年3月20日

云从科技3D人体重建技术刷新3项纪录！仅凭照片即可生成精细模型

AI100

6+阅读 · 2019年3月20日

这个面部3D重建模型，造出了6000多个名人的数字面具

机器之心

6+阅读 · 2019年1月12日

只有条件GAN才能稳定训练？对抗+自监督的无监督方法了解一下

机器之心

7+阅读 · 2019年1月2日

谷歌新研究用深度学习合成运动模糊效果，手抖也能拍出摄影师级照片

新智元

7+阅读 · 2018年12月28日

ECCV 2018 | 腾讯优图提出几何对抗损失函数在单视图3D物体重建中的应用

机器之心

4+阅读 · 2018年8月17日

学界 | 对抗式协作：一个框架解决多个无监督学习视觉问题

机器之心

3+阅读 · 2018年6月25日

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

Bias-Free Scalable Gaussian Processes via Randomized Truncations

Arxiv

0+阅读 · 2021年2月12日

Uncertainty Propagation in Convolutional Neural Networks: Technical Report

Arxiv

0+阅读 · 2021年2月11日

Monocular Plan View Networks for Autonomous Driving

Arxiv

6+阅读 · 2019年5月16日

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Arxiv

9+阅读 · 2018年11月25日

PPF-FoldNet: Unsupervised Learning of Rotation Invariant 3D Local Descriptors

Arxiv

9+阅读 · 2018年8月30日

Scene Coordinate and Correspondence Learning for Image-Based Localization

Arxiv

5+阅读 · 2018年7月23日

Constrained-CNN losses forweakly supervised segmentation

Arxiv

5+阅读 · 2018年5月12日

Learning Human Pose Models from Synthesized Data for Robust RGB-D Action Recognition

Arxiv

3+阅读 · 2018年5月1日

3D Reconstruction in Canonical Co-ordinate Space from Arbitrarily Oriented 2D Images

Arxiv

4+阅读 · 2018年1月23日

VIP会员