选自arXiv
机器之心编译
参与:李泽南
对于现实世界物体的 3D 建模是很多工作中都会出现的任务。目前流行的方法通常需要对于目标物体进行多角度测量,这种方法耗费资源且准确度低下。近日,来自牛津大学等院校的研究者们提出了一种基于自编码器与 GAN 的机器学习 3D 建模方式 3D-RecGAN,可以在只需要一张图片的情况下准确构建物体的 3D 结构。该研究的论文即将出现在 10 月底于威尼斯举行的 ICCV 2017 大会上。
重建物体完整与准确的 3D 模型是很多工作中必不可少的任务,从 AR/VR 应用到语义理解,再到机器人抓取和障碍物回避。常见的方法是使用 Kinect 和 RealSense 这样的低成本探测设备从抓取到的景深图片中进行 3D 建模,此类方法通常需要抓取大量不同视角的景深图片。然而,在实际环境中,扫描物体整个表面并不总是可行的,这意味着构建的模型可能会忽略物体的某些空隙。另外,获取和处理多个深度视图需要耗费大量计算资源,这对很多需要即时反应的应用不利。
来自英国牛津大学、华威大学、赫瑞瓦特大学以及帝国理工大学的研究者们提出的方法破解了这个问题。他们试图用单一景深影像来重构完整的 3D 模型。这是一项非常具有挑战性的工作,对目标物体的不完整观察理论上可以延伸出无限多种 3D 模型的可能性。传统重构方法通常使用插值技术,如平面消差、泊松面估计来估算背面的 3D 结构。然而,这些方法只能重建简单的缺失/隐藏区域,应对孔隙、噪声和信息不充分等因素造成造成的图像不完整。
有趣的是,人类具有惊人的隐藏内容补完能力。例如,给出一张椅子的图片,后两个椅子腿被遮挡,人类可以轻而易举地猜出背后最为可能的形状。受此启发,研究人员认为,近期快速发展的深度神经网络与数据驱动方法正适合处理这类任务。
同时,虽然目前业内最佳的深度学习 3D 形状重建技术取得了令人满意的进展,但它们仍然只适用于小于 403 立体像素网络的分辨率,这导致学习到的 3D 形状粗糙而不准确。而在不牺牲准确度的情况下增加模型分辨率非常困难,因为即使稍稍提高分辨率都会显著提高潜在 2.5D 到 3D 绘图函数的搜索空间,导致神经网络收敛困难。
在该研究中,研究者们提出了 3D-RecGAN,一种结合自动编码器与 GAN 的全新模型,用于在单个 2.5D 视图的基础上生成完整 3D 结构。其中,研究人员首次将 2.5D 视角编码为低维隐空间向量,隐藏式地表示 3D 几何结构,随后将其解码以重建最为可能的完整 3D 结构。粗建的 3D 结构随后被输入条件鉴别器中,这一单元被对抗训练以用于分辨粗制 3D 形态是否合理。自动编码器能够近似相应的形状,而对抗训练倾向于将细节加入到估算的形状中。为了确保最终生成的 3D 形体与输入的 2.5D 视图相对应,该模型的对抗训练是基于条件 GAN,而不是随机猜测的。
图 1. 3D-RecGAN 从单张 2.5D 景深图中重建完整 3D 模型的结果示例
该方法旨在预测一个 3D 形体的完整形状,它只需要任意一个 2.5D 深度视图作为输入。其输出的 3D 形态可以自动与对应的 2.5D 部分图像相适应。为了达到要求,每个目标模型以 3D 立体像素网络表示,只是用简单的占位信息进行地图编码,其中 1 表示占用的单元格,0 表示空单元格。具体地,表示为 I 的输入和表示为 Y 的输出 3D 形状在网络中使用了 643 个占用网格。输入形状直接由单一深度图像算出。
输入形状直接来自单一深度图片的计算。为了产生真正的训练和评估对,研究人员虚拟扫描了 ModelNet40 中的 3D 物体。图 2 是部分 2.5D 视图的 t-SNE 可视化和多个通用椅子和床相应的全 3D 形状。每个绿点表示 2.5D 视图的 t-SNE 嵌入,红点则是嵌入的相应 3D 形状。可以看出,很多类别固有地具有类似的 2.5D 到 3D 映射关系。看起来,神经网络学习出了一个平滑的函数,表示为 f,它将绿色点映射到高维空间中的红点,函数 f 通常由卷积层参数化。
图 2. t-SNE 嵌入 2.5D 部分视图和 3D 完整形状的多个对象类别。
图 3. 用于训练的网络架构概览
图 4. 用于测试的网络架构概览
图 5. 3D-RecGAN 架构
图 6. 不同方法的 3D 建模效果对比
论文:3D Object Reconstruction from a Single Depth View with Adversarial Learning
论文链接:https://arxiv.org/abs/1708.07969
项目代码:https://github.com/Yang7879/3D-RecGAN
摘要:在本论文中,我们提出了一种名为 3D-RecGAN 的新方法,它使用生成对抗网络从单个任意深度视图重建给定对象的完整 3D 结构。与通常需要同一张图片从多个角度或多类标签来还原完整 3D 结构的方式不同,我们提出的 3D-RecGAN 只需要获得对象深度视图的立体像素表示输入,即可生成目标物体包含 3D 填充/缺失区域的网格模型。其中的关键思想是结合生成能力与自编码器,以及条件生成对抗网络(GAN)架构,来生成高维孔隙形状物体准确而精细的 3D 结构。对于大型合成数据集的广泛实验显示,3D-RecGAN 的表现显著好于目前业内最佳的单视角 3D 目标重建方法,同时可以重建目标物体不可见的部分。
☞ 【深度】Yann LeCun最新演讲再谈预测学习:记忆网络和对抗训练是很有前景的方向
☞ 【分享】三角兽首席科学家分享实录:基于对抗学习的生成式对话模型
☞ 【学界】清华朱军团队探索DNN内部架构,采用对抗性例子监督网络生成及错误
☞ 【几何图景】GAN的几何图景:样本空间的Morse流,与鉴别网络D为何不可能真正鉴别真假
☞ 【应用】生成式对抗网络GAN有哪些最新的发展,可以实际应用到哪些场景中?
☞ 【从头开始GAN】Goodfellow开山之作到DCGAN等变体
☞ 【智能自动化学科前沿讲习班第1期】上海交大倪冰冰副教授:面向图像序列的生成技术及应用初探
☞ 【智能自动化学科前沿讲习班第1期】University of Central Florida 的Guojun Qi:LS-GAN
☞ 【智能自动化学科前沿讲习班第1期】微软秦涛主管研究员:从单智能体学习到多智能体学习
☞ 【智能自动化学科前沿讲习班第1期】王坤峰副研究员:GAN与平行视觉
☞ 【原理】十个生成模型(GANs)的最佳案例和原理 | 代码+论文
☞ 【教程】经得住考验的「假图片」:用TensorFlow为神经网络生成对抗样本
☞ 【模型】基于深度学习的三大生成模型:VAE、GAN、GAN的变种模型
☞ 【大会】还记得Wasserstein GAN吗?不仅有Facebook参与,也果然被 ICML 接收
☞ 【学界】邢波团队提出contrast-GAN:实现生成式语义处理
☞ 【专栏】阿里SIGIR 2017论文:GAN在信息检索领域的应用
☞ 【学界】康奈尔大学说对抗样本出门会失效,被OpenAI怼回来了!
☞ 警惕人工智能系统中的木马、病毒 ——深度学习对抗样本简介
☞ 【生成图像】Facebook发布的LR-GAN如何生成图像?这里有一篇Pytorch教程
☞ 【智能自动化学科前沿讲习班第1期】国立台湾大学(位于中国台北)李宏毅教授:Anime Face Generation
☞ 【变狗为猫】伯克利图像迁移cycleGAN,猫狗互换效果感人
☞ 【论文】对抗样本到底会不会对无人驾驶目标检测产生干扰?又有人发文质疑了
☞【智能自动化学科前沿讲习班第1期】王飞跃教授:生成式对抗网络GAN的研究进展与展望
☞【专栏】基于对抗学习的生成式对话模型的坚实第一步 :始于直观思维的曲折探索
☞ 【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起
☞ 【最新】OpenAI:3段视频演示无人驾驶目标检测强大的对抗性样本!
☞ 【论文】CVPR 2017最佳论文出炉,DenseNet和苹果首篇论文获奖
☞ 【深度学习】解析深度学习的局限性与未来,谷歌Keras之父「连发两文」发人深省
☞ 苹果重磅推出AI技术博客,CVPR合成逼真照片论文打响第一枪
☞ 【Ian Goodfellow 五问】GAN、深度学习,如何与谷歌竞争
☞ 【巨头升级寡头】AI产业数据称王,GAN和迁移学习能否突围BAT垄断?
☞ 【高大上的DL】BEGAN: Boundary Equilibrium GAN
☞ 【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望
☞ 【最全GAN变体列表】Ian Goodfellow推荐:GAN动物园
☞ 【DCGAN】深度卷积生成对抗网络的无监督学习,补全人脸合成图像匹敌真实照片
☞ 【开源】收敛速度更快更稳定的Wasserstein GAN(WGAN)
☞ 【Valse 2017】生成对抗网络(GAN)研究年度进展评述
☞ 【开源】谷歌新推BEGAN模型用于人脸数据集:效果惊人!
☞ 【深度】Ian Goodfellow AIWTB开发者大会演讲:对抗样本与差分隐私
☞ 论文引介 | StackGAN: Stacked Generative Adversarial Networks
☞ 【纵览】从自编码器到生成对抗网络:一文纵览无监督学习研究现状
☞ 【论文解析】Ian Goodfellow 生成对抗网络GAN论文解析
☞ 【推荐】条条大路通罗马LS-GAN:把GAN建立在Lipschitz密度上
☞【Geometric GAN】引入线性分类器SVM的Geometric GAN
☞ 【GAN for NLP】PaperWeekly 第二十四期 --- GAN for NLP
☞ 【Demo】GAN学习指南:从原理入门到制作生成Demo
☞ 【学界】伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标
☞ 【人物 】Ian Goodfellow亲述GAN简史:人工智能不能理解它无法创造的东西
☞ 【DCGAN】DCGAN:深度卷积生成对抗网络的无监督学习,补全人脸合成图像匹敌真实照片
☞ 带你理解CycleGAN,并用TensorFlow轻松实现
☞ PaperWeekly 第39期 | 从PM到GAN - LSTM之父Schmidhuber横跨22年的怨念
☞ 【CycleGAN】加州大学开源图像处理工具CycleGAN
☞ 【SIGIR2017满分论文】IRGAN:大一统信息检索模型的博弈竞争
☞ 【贝叶斯GAN】贝叶斯生成对抗网络(GAN):当下性能最好的端到端半监督/无监督学习
☞ 【贝叶斯GAN】贝叶斯生成对抗网络(GAN):当下性能最好的端到端半监督/无监督学习
☞ 【GAN X NLP】自然语言对抗生成:加拿大研究员使用GAN生成中国古诗词
☞ ICLR 2017 | GAN Missing Modes 和 GAN
☞ 【学界】CMU新研究试图统一深度生成模型:搭建GAN和VAE之间的桥梁
☞ 【专栏】大漠孤烟,长河落日:面向景深结构的风景照生成技术
☞ 【开发】最简单易懂的 GAN 教程:从理论到实践(附代码)
☞ 【论文访谈】求同存异,共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法
☞ 【LeCun论战Yoav】自然语言GAN惹争议:深度学习远离NLP?
☞ 【争论】从Yoav Goldberg与Yann LeCun争论,看当今的深度学习、NLP与arXiv风气
☞ 【观点】Yoav Goldberg撰文再回应Yann LeCun:「深度学习这群人」不了解NLP(附各方评论)
☞ PaperWeekly 第41期 | 互怼的艺术:从零直达 WGAN-GP
☞ 【谷歌 GAN 生成人脸】对抗创造新艺术风格,128 像素扩展到 4000
☞ 【原理】只知道GAN你就OUT了——VAE背后的哲学思想及数学原理