猿桌会总结 | 圣路易斯华盛顿大学刘晨：室内场景的结构化重建

会员服务 ·

猿桌会总结 | 圣路易斯华盛顿大学刘晨：室内场景的结构化重建

2018 年 10 月 5 日 AI研习社

随着增强现实，家务机器人等应用的普及，室内场景重建研究正在得到越来越广泛的关注。与传统底层密集重建方法不同，讲者的研究集中在分析重建场景中的高层结构化信息。

在本次AI研习社大讲堂上，来自圣路易斯华盛顿大学的计算机系在读博士刘晨分享了其结构化重建的最新工作。

分享嘉宾：

刘晨，圣路易斯华盛顿大学计算机系在读博士，导师是Yasutaka Furukawa教授，主要研究方向为三维视觉，场景理解等。其研究工作曾在 CVPR、ICCV、ECCV等会议发表。

公开课回放地址：

http://www.mooc.ai/open/course/538?=Leiphone

分享主题：室内场景的结构化重建

分享提纲：

结构化场景重建的定义及意义
单目结构化重建
俯视图结构化重建
多目结构化重建

雷锋网AI研习社将其分享内容整理如下：

非常高兴能在这个平台上和大家分享我们组的最新研究成果，这次的分享题目是《室内场景的结构化重建》。

大家都知道，从一个场景中理解分析三维的几何信息是一个非常重要的计算机视觉问题。传统的方法多是用一些底层次的三维表示，比如说密集的点云、密集网格模型或者是深度图。这些低层次的三维表示虽然看起来很美观，但是却不好分析和理解，因此并不是很实用。

我们的研究希望出一个中看也中用的表示。作为人类，我们会及时辨别一个场景中哪些部分是完整的地面，哪些部分是完整的墙，我们希望计算机也能做到。

在俯视图结构化重建上，由于墙和地面往往是垂直的，所以俯视图能够给我们提供非常多的信息，我们的目标是希望能够得到矢量图形平面图，主要是基于墙角的点以及所有墙角之间的连线，这将对我们理解整个室内结构提供非常多的有用信息。

为了获得矢量图形平面图，我们会考虑使用 PNG 图像、点云、镭射扫描作为输入。

对于结构化的定义，有以下这三点：

一、场景与结构的表示是简洁的

二、场景是根据语义来分割的

三、分析理解的方式与人类保持一致

结构化表示可以在机器人导航、室内装饰、虚拟购房导航以及虚拟现实效果优化等方面起作用。

单目结构化重建

目前实现结构化表示方面我们遇到哪些挑战呢？

首先，高层次的场景理解需要提取整个平面；

其次，室内存在许多造成干扰的遮挡物体；

最后，室内场景的平面往往缺乏纹理。

为了应对挑战，我们提取了室内场景的特性：平面性与正交性，利用这两点来做单目结构化重建的工作。我们试图从照片中提取出所需要的平面，并估计每个平面的三维参数，进而确定平面的三维结构信息。

过去虽然有一些底层次的三维重建工作也取得了不错的效果，却面临着不够直观和平滑的问题。

在我们的工作中，我们假定一个图像拥有十个平面，每个平面分别用三维空间中的三个参数来表示，最终确定三维结构；为了进一步确认在三维空间中的范围，我们会计算 segmentation masks；至于非平面区域，则估算 pixel-wise 的 depth map。

这三种信息合起来便是图片的三维场景信息。

这样做会遇到什么挑战呢？那就是我们无法确认第一个输出的平面长什么样，因为我们是根据 geometry 来做分割。

于是我们使用 set matching 解决以上问题——在确认 prediction 以后，我们在 Ground truth 里为每个 prediction 找到最近零作为监督。为了进一步提升重建效果，我们还用 ground truth 的 text 来做监督学习。

此外，我们使用了包含多种三维模型的 ScanNet 数据集作为训练网络，结合相机参数，将三维空间中的平面投映到二维上来，以获得最终需要的训练数据——plane parameters, segmentation masks 和非平面区域的 depth map。

这份工作的意义在于，我们可以在平面图上添加一些虚拟元素（电视、动态 logo、游戏），以增强虚拟现实的呈现效果。

从上图来看，我们的算法对于大平面的检测质量还是比较稳定的，只是在一些边缘部分或者小平面还存在一些问题。

另外，我们最终获得的 depthmap，不单能够保证内部的绝对平滑，且在精度上也不比其他算法差。

关于这项工作，我们未来试图探索的方向有：

一、如何将单幅图像结构重建拓展到多幅图像；

二、考虑分析遮挡信息；

三、用于室外场景；

四、考虑更复杂的表面表示信息。

俯视图结构化重建

关于俯视图结构化重建，我将着重分享如何从 Jpeg 图像和点云中进行恢复重建。

这种矢量图的价值在于：

可以帮助我们对建筑做出直观的分析理解；

在有需要时可以将结构图转成三维空间实现渲染效果；

如果你是一名建筑师，还可以随时修改自己的设计图。

为了获取矢量图，我们借鉴了 Human pose estimation 方法，并解决了所面临的任意拓扑挑战。在我们的工作中，会先通过深度网络找到图中的关键元素（墙角、门、物体……），然后再利用 Integar Programming（IP）进行优化。总的来说，前者构成了我们的中间层表示，后者最终优化出最终的结构图。

【更多关于 Integar Programming 的优化细节，请回看视频 00：25：20 处，http://www.mooc.ai/open/course/538?=Leiphone】