【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

2018 年 12 月 7 日 GAN生成式对抗网络

来源：venturebeat

编辑：三石

合成现实3D物体模型的人工智能，看上去并没有那么遥不可及。

在2018年蒙特利尔NeurIPS大会上，麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）和谷歌的研究人员发表了一篇论文，描述了一个能够生成具有逼真纹理的人工智能系统。

论文名称：

Visual Object Networks: Image Generation with Disentangled 3D Representation

论文地址：

https://papers.nips.cc/paper/7297-visual-object-networks-image-generation-with-disentangled-3d-representations.pdf

人工智能系统VON，生成最逼真3D图像

该人工智能系统——视觉对象网络（Visual Object Networks，VON），不仅生成的图像比当前最先进的方法还要逼真，还可以进行形状和纹理编辑、视角转换以及其它3D调整。

研究人员写到：“现代深层生成模型学会了合成较为逼真的图像。大多数计算模型只专注于生成2D图像，忽略了世界是3D的本质。这种2D视角不可避免地限制了它们在许多领域的实际应用，比如合成数据生成、机器人学习、视觉现实和游戏行业。”

VON通过联合合成三维形状和二维图像来解决这个问题，研究人员将其称为“disentangled object representation”。图像生成模型被分解为形状、视点和纹理三个要素，在计算“2.5D”草图和添加纹理之前，首先学习三维形状的合成。

重要的是，因为这三个要素是条件独立的，模型不需要在二维和三维形状之间配对数据。这使得该团队能够对二维图像和三维形状的大规模集合进行训练，比如Pix3D、谷歌图像搜索和ShapeNet，后者包含了55个对象类别的数千个CAD模型。

为了让VON学习如何生成自己的形状，该团队训练了一个生成对抗网络（GAN），试图在上述三维形状数据集上区分生成样本和真实样本。纹理生成被“降级”到另一个基于GAN的神经网络。

经过大约两到三天的训练，人工智能系统产生了逼真的128×128×128模型，具有真实的反射率、环境照度和反照率。

为了评估图像生成模型，团队计算了用于生成三维模型的Fréchet初始距离。此外，他们还向亚马逊的Mechanical Turk上展示了200对由VON和最先进的模型生成的图像，被试者的任务是在每对图像中选择更加真实的结果。

VON的性能表现非常突出。与其它AI模型相比，它的Fréchet初始距离最低。Mechanical Turk被试者更喜欢VON生成的图像，比例高达74%至85%。

研究人员将专注于更加精细化的建模，以更高的分辨率生成形状和图像，将纹理分解为光照和外观，并合成自然场景。

研究团队写道：“我们的关键思想是将图像生成过程分解为三个要素：形状、视角和纹理，这种分离的3D表示方式使我们能够在对抗学习框架下从3D和2D视觉数据收集中学习模型。与现有的2D生成模型相比，我们的模型合成的图像更加逼真；它还允许3D操作，这用以前的2D方法是无法实现的。”

突飞猛进的GAN

近年来，对GAN的研究突飞猛进，尤其是在机器视觉领域：

Google旗下的DeepMind去年10月推出了一个基于GAN的系统，可以创建非常逼真的食物、风景、动物等照片；
今年9月，英伟达的研究人员开发了一种AI模型，可以对脑癌进行合成扫描；
今年8月，卡内基梅隆大学（Carnegie Mellon）的一个研究小组展示了如何利用人工智能将一个人录制下来的动作和面部表情在转移到另一张照片或视频中的目标对象；
最近，爱丁堡大学感知研究所和天文学研究所的科学家设计了一种可以产生高分辨率的星系图像。

原文链接：

https://venturebeat.com/2018/12/04/google-ai-generates-images-of-3d-models-with-realistic-lighting-and-reflections/

高质量延伸阅读