解决3D重建难题,伯克利大学根据单张平面彩图重建高精度3D结构

2017 年 8 月 25 日 新智元

1新智元编译  

来源:bair.berkeley.edu

作者:Christian Häne

编译:刘小芹


【新智元导读】3D重建是计算机视觉中的一个核心问题,应用于电影制作、视频游戏的内容制作、虚拟现实和增强现实、3D打印,等等。伯克利大学的研究团队提出根据单张彩色平面图像重建出高质量的3D几何图形的新方法,相比其他基线方法效果更好。


论文地址:https://arxiv.org/pdf/1704.00710.pdf



从平面图像重建3D几何图形是计算机视觉中的一个核心问题。3D重建有许多应用,例如电影制作、视频游戏的内容制作、虚拟现实和增强现实、3D打印,等等。这篇文章探讨如何从单一的彩色图像重建高质量的3D几何图形,如下图所示:



人类毫不费劲就能理解物体和场景的形状,哪怕我们看到的只是一张平面图像。我们双眼的结构让我们能够感知深度,并不需要理解3D几何。即使我们只看到一个物体的照片,我们也能对它的形状有很好的理解。此外,我们还能够理解例如物体背面的看不见的部分,这是了解物体形状的重要能力。那么,人类是如何根据单个图像推理其几何形状的呢?在人工智能方面提出的问题是:我们可以怎样教会机器这样的能力?


形状空间


从不明确的输入重建几何形状的基本原理是,几何形状不是任意的,因此有些形状更可能,有些则非常不可能。一般来说,表面都是光滑的。在人造环境中,它们通常是分段的平面。例如,飞机通常有一个机身,机身两侧有两个主翼,后方有一个垂直尾翼。人类能够通过眼睛观察世界,并动手与世界互动来获取这样的只是。在计算机视觉中,形状不是任意的这一事实允许我们将一个对象类或多个对象类的所有可能形状描述为一个低维的形状空间(low dimensional shape space),这是从大量示例形状获取的。


使用CNN进行体素预测


3D重建方面的一项最新工作[Choy et al. ECCV 2016, Girdhar et al. ECCV 2016]利用卷积神经网络(CNN)将物体的形状预测为一个3D体积。作为输出的3D体积被细分为体积元素,称为体素(voxel),每个体素被确定为被占用或空着(即,分别属于物体的内部或外部)。输入通常是一张彩色图片,CNN使用一个上卷积解码器架构来预测占用体积(occupancy volume)。网络被端到端地训练,并且由已知的真实占用体积进行监督,这些占用是从合成CAD模型数据集中获取的。使用这种3D表示和CNN,可以学习能够适用各种对象类的模型。


分层进行表面预测



使用CNN预测占用体积的主要缺点是输出的空间是三维的,因此它的分辨率具有指数函数级的增长(cubic growth)。这个问题限制了上述工作预测高质量的几何形状,因此产生的是分辨率非常粗糙的体素网格( voxel grids),例如32³(上图)。在我们的工作中,我们认为这是一个不必要的限制因素,因为图形的表面实际上只是二维的。我们利用表面的二维性质,通过分层预测高分辨率体素,根据低分辨率的预测结果来推测表面。这个想法与八叉树表示(octree representation)密切相关,八叉树通常用于多视角立体视觉和深度图融合(depth map fusion)来表示高分辨率的几何形状。


方法


基本的3D预测流程是将一张彩色图像作为输入,使用卷积编码器将其先编码为低维表示。然后,这个低维表示被解码称一个3D占用体积。我们的方法的主要想法被称为分层表面预测(hierarchical surface prediction,HSP),是通过预测低分辨率体素开始解码。但是,与一般的方法相反,每个体素都被分类为自由空间(free space)或占用空间(occupied space),我们使用3个类:自由空间、占用空间和边界。这允许我们以低分辨率分析输出,并且只在有证据表明该输出包含表面时预测该部分体积的更高分辨率。通过迭代这个细化的过程,我们可以分层第预测高分辨率体素网格(见下图)。该方法的更多细节,请读者阅读我们的技术论文[Häneet al. arXiv 2017]。




实验


我们的实验主要是在合成的ShapeNet数据集上进行的[Chang et al. arXiv 2015]。我们的研究的主要任务是根据单一的彩色图像预测出高分辨率的3D图形。我们将我们的方法与我们称为low resolution hard(LR hard)和 low resolution soft(LR soft)的两个基线进行比较。这些基线以相同的低分辨率32³进行预测,但训练数据的生成方式不同。LR hard 基线使用体素的二进制分配。如果相应的高分辨率体素中的至少一个被占用,则所有体素被标记为被占用。LR soft基线使用分数赋值,反映相应高分辨率体素中占用体素的百分比。我们的HSP方法以256³的分辨率进行预测。下图中的结果显示了与低分辨率基线相比,在生成3D图形的表面质量和高分辨率预测的完整性方面的好处。我们的论文中讨论了更多实验和定量结果。




这篇文章基于以下论文:

Hierarchical Surface Prediction for 3D Object Reconstruction, C. Häne, S.Tulsiani, J.Malik, ArXiv 2017

https://arxiv.org/abs/1704.00710


原文链接:http://bair.berkeley.edu/blog/2017/08/23/high-quality-3d-obj-reconstruction/



【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位

点击阅读原文可查看职位详情,期待你的加入~



登录查看更多
4

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
34+阅读 · 2020年6月17日
3D目标检测进展综述
专知会员服务
187+阅读 · 2020年4月24日
基于Siamese网络的多视角三维人脸重建
计算机视觉战队
5+阅读 · 2019年11月28日
3D重建:硬派几何求解vs深度学习打天下?
机器之心
5+阅读 · 2019年7月8日
已删除
将门创投
8+阅读 · 2019年1月4日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
10+阅读 · 2019年1月24日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
10+阅读 · 2018年2月17日
VIP会员
相关VIP内容
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
34+阅读 · 2020年6月17日
3D目标检测进展综述
专知会员服务
187+阅读 · 2020年4月24日
相关资讯
基于Siamese网络的多视角三维人脸重建
计算机视觉战队
5+阅读 · 2019年11月28日
3D重建:硬派几何求解vs深度学习打天下?
机器之心
5+阅读 · 2019年7月8日
已删除
将门创投
8+阅读 · 2019年1月4日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
相关论文
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
10+阅读 · 2019年1月24日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
10+阅读 · 2018年2月17日
Top
微信扫码咨询专知VIP会员