解决3D重建难题，伯克利大学根据单张平面彩图重建高精度3D结构

会员服务 ·

解决3D重建难题，伯克利大学根据单张平面彩图重建高精度3D结构

2017 年 8 月 25 日 新智元

1新智元编译

来源：bair.berkeley.edu

作者：Christian Häne

编译：刘小芹

【新智元导读】3D重建是计算机视觉中的一个核心问题，应用于电影制作、视频游戏的内容制作、虚拟现实和增强现实、3D打印，等等。伯克利大学的研究团队提出根据单张彩色平面图像重建出高质量的3D几何图形的新方法，相比其他基线方法效果更好。

论文地址：https://arxiv.org/pdf/1704.00710.pdf

从平面图像重建3D几何图形是计算机视觉中的一个核心问题。3D重建有许多应用，例如电影制作、视频游戏的内容制作、虚拟现实和增强现实、3D打印，等等。这篇文章探讨如何从单一的彩色图像重建高质量的3D几何图形，如下图所示：

人类毫不费劲就能理解物体和场景的形状，哪怕我们看到的只是一张平面图像。我们双眼的结构让我们能够感知深度，并不需要理解3D几何。即使我们只看到一个物体的照片，我们也能对它的形状有很好的理解。此外，我们还能够理解例如物体背面的看不见的部分，这是了解物体形状的重要能力。那么，人类是如何根据单个图像推理其几何形状的呢？在人工智能方面提出的问题是：我们可以怎样教会机器这样的能力？

形状空间

从不明确的输入重建几何形状的基本原理是，几何形状不是任意的，因此有些形状更可能，有些则非常不可能。一般来说，表面都是光滑的。在人造环境中，它们通常是分段的平面。例如，飞机通常有一个机身，机身两侧有两个主翼，后方有一个垂直尾翼。人类能够通过眼睛观察世界，并动手与世界互动来获取这样的只是。在计算机视觉中，形状不是任意的这一事实允许我们将一个对象类或多个对象类的所有可能形状描述为一个低维的形状空间（low dimensional shape space），这是从大量示例形状获取的。

使用CNN进行体素预测

3D重建方面的一项最新工作[Choy et al. ECCV 2016, Girdhar et al. ECCV 2016]利用卷积神经网络（CNN）将物体的形状预测为一个3D体积。作为输出的3D体积被细分为体积元素，称为体素（voxel），每个体素被确定为被占用或空着（即，分别属于物体的内部或外部）。输入通常是一张彩色图片，CNN使用一个上卷积解码器架构来预测占用体积（occupancy volume）。网络被端到端地训练，并且由已知的真实占用体积进行监督，这些占用是从合成CAD模型数据集中获取的。使用这种3D表示和CNN，可以学习能够适用各种对象类的模型。

分层进行表面预测

使用CNN预测占用体积的主要缺点是输出的空间是三维的，因此它的分辨率具有指数函数级的增长（cubic growth）。这个问题限制了上述工作预测高质量的几何形状，因此产生的是分辨率非常粗糙的体素网格（ voxel grids），例如32³（上图）。在我们的工作中，我们认为这是一个不必要的限制因素，因为图形的表面实际上只是二维的。我们利用表面的二维性质，通过分层预测高分辨率体素，根据低分辨率的预测结果来推测表面。这个想法与八叉树表示（octree representation）密切相关，八叉树通常用于多视角立体视觉和深度图融合（depth map fusion）来表示高分辨率的几何形状。

方法

基本的3D预测流程是将一张彩色图像作为输入，使用卷积编码器将其先编码为低维表示。然后，这个低维表示被解码称一个3D占用体积。我们的方法的主要想法被称为分层表面预测（hierarchical surface prediction，HSP），是通过预测低分辨率体素开始解码。但是，与一般的方法相反，每个体素都被分类为自由空间（free space）或占用空间（occupied space），我们使用3个类：自由空间、占用空间和边界。这允许我们以低分辨率分析输出，并且只在有证据表明该输出包含表面时预测该部分体积的更高分辨率。通过迭代这个细化的过程，我们可以分层第预测高分辨率体素网格（见下图）。该方法的更多细节，请读者阅读我们的技术论文[Häneet al. arXiv 2017]。

实验

我们的实验主要是在合成的ShapeNet数据集上进行的[Chang et al. arXiv 2015]。我们的研究的主要任务是根据单一的彩色图像预测出高分辨率的3D图形。我们将我们的方法与我们称为low resolution hard（LR hard）和 low resolution soft（LR soft）的两个基线进行比较。这些基线以相同的低分辨率32³进行预测，但训练数据的生成方式不同。LR hard 基线使用体素的二进制分配。如果相应的高分辨率体素中的至少一个被占用，则所有体素被标记为被占用。LR soft基线使用分数赋值，反映相应高分辨率体素中占用体素的百分比。我们的HSP方法以256³的分辨率进行预测。下图中的结果显示了与低分辨率基线相比，在生成3D图形的表面质量和高分辨率预测的完整性方面的好处。我们的论文中讨论了更多实验和定量结果。