选自BAIR
作者:Abhishek Kar
机器之心编译
参与:李泽南、蒋思源
想象一下图片中的椅子。人类具有无与伦比的推理能力,可以在看到单张图片的情况下想象出整个椅子的 3D 形状——即使你从未看到过这样的东西。这种体验更具代表性的例子就是在同一个物理空间中从不同角度观察椅子以积累信息,随后构建椅子的 3D 形态。如何解决这个复杂的 2D 到 3D 推理任务?在这个过程中,我们需要用到什么样的线索?
我们如何从不同视图中无缝集成信息,以建立一个整体的 3D 模型?
在计算机视觉领域里,有很多人都在开发由图片为信息源构建 3D 模型的方法。这些研究包括单眼线索,例如遮盖、线性透视、大小常性(size constancy)等,也有双目甚至多视角立体视觉。整合了多视角信息的方法被称为立体影像,即从多个视角观察空间中的一个点,则它在 3D 模型中的位置可以通过这些视角的三角定位方式来确定。这类算法已经引出了基于运动的 3D 重建(SfM)和立体视觉(MVS)等方法,它们已被用于城市级别的 3D 模型构建,并已让 3D 地图实用化。
随着深度神经网络及其在数据建模任务中展现出的强大能力,人们的研究重点正逐渐转向单眼线索,将单个图像作为深度/表面标定图或 3D 像素网格,我们能从中获取信息并利用卷积神经网络预测 3D 模型。
在最近 UC Berkeley 的论文《Learning a Multi-View Stereo Machine》中,研究人员尝试了统一单视角与多视角 3D 重建范式。他们提出了一个名为立体学习机(Learnt Stereo Machine,LSM)的新系统,它可以利用单视觉/语义线索进行单视图 3D 重建,同时也可以使用立体视觉来整合来自多个视角的信息,所有这些信息都由单一的端到端深度神经网络处理。
立体学习机
LSM 被设计成用于解决多视角立体任务。给定一系列已知相机视角的图片,它可以为底层场景生成 3D 模型——特别是以每个输入三维网格或密集点云的形式对输入视图形成图片深度绘图。在设计 LSM 的过程中,研究人员从 MVS 的经典工作中获取了灵感。这些方法首先从图像中提取特征,形成对应关系。通过比较不同图片的特征,系统将形成相匹配的成本体积(matching cost volume)。这些(通常有噪声的)匹配成本随后会与多尺度和形态优先级的信息整合以过滤/归一化。最终,被过滤的匹配成本会被解码为所需的表示,如 3D 体积/表面/视差图。
这里的关键要素是投影和反投影模块,它们允许 LSM 在 2D 图像和 3D 空间中能够正确互相转换。反投影模块将 2D 图像中的特征(由前馈卷积神经网络获取)投影到 3D 网格中,并使得多张此类图片获得的结果根据极线约束(epipolar constraint)在 3D 网格中对齐。这种方式简化了特征匹配,现在沿极线(epipolar line)搜索消耗的计算资源要比在 3D 网格中搜索所有映射到给定地址的特征来得要少。
这种特征匹配使用 3D 循环单元建模,该单元在保持匹配分数的运行估计时执行反投影网格的顺序匹配。一旦我们使用了 3D CNN 过滤局部匹配成本体积(local matching cost volume),我们就可以将其直接解码为 3D 网格为立体网格预测任务,或者使用可微分投影操作将其投影回 2D 图像空间。投影操作可以被视为反投影的逆过程,在这里 3D 特征网格与样本特征随着视线将它们以相同深度间隔投影到 2D 特征图上。这种投影特征图随后被解码为每个视图的深度图。在该网络中,所有步骤都是完全可分的,我们可以在此之上训练有监督的端到端深度图或立体网格系统。
由于 LSM 可以从可变数量的图片(甚至是只有一张图的情况下)中预测 3D 形态,它同时适用于多视角系统与单视角语义系统。LSM 可以产生粗糙的全 3D 立体网格以及密集的深度图,从而使用深度神经网络统一 3D 预测中的两个主要范式。
在 UC Berkeley 的论文中,研究者们展示了超越此前业内最佳的(使用循环神经网络)整合多视角构建 3D 模型的方法。此外,研究人员还展示了类别外的概括能力,如 LSM 可以重建汽车的模型——即使它只得到了飞机与椅子图像的训练。唯一的可能解释就是系统是针对任务进行几何处理的。研究人员还从一些视图中获得了细致的模型重建效果——系统对于图片数量的要求显著少于传统 MVS 系统。
下一步
LSM 是面向统一化 3D 模型重建技术的重要一步——整合单一和多视角,语义和几何重建,粗糙和密集图像预测。在这种问题上的联合处理方法可以帮助我们构建更加稳固和准确的模型,同时与流水线式的方法相比,基于 LSM 的方法部署更简单。
这是 3D 计算机视觉技术激动人心的时刻。利用深度神经网络预测高分辨率几何是可能的。我们甚至可以在没有明确 3D 监督的情况下进行 3D 预测。研究人员即将在未来利用 LSM 实现这些技术与想法。其它待观察的方向有:将图像中的物体从 2D 转换为 3D,并在 3D 标准空间中对它们进行度量,这有助于其它下游任务,如导航和机器人抓取等。UC Berkeley 将在近期公布该研究的相关代码。
论文链接:https://arxiv.org/abs/1708.05375
原文链接:http://bair.berkeley.edu/blog/2017/09/05/unified-3d/
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告&商务合作:bd@jiqizhixin.com