FAIR 何恺明等人团队提出 3D 目标检测新框架 VoteNet,直接处理原始数据,不依赖任何 2D 检测器。该模型设计简单,模型紧凑,效率高,在两大真实 3D 扫描数据集上实现了最先进的 3D 检测精度。
当前的 3D 目标检测方法受 2D 检测器的影响很大。为了利用 2D 检测器的架构,它们通常将 3D 点云转换为规则的网格,或依赖于在 2D 图像中检测来提取 3D 框。很少有人尝试直接检测点云中的物体。
近日,Facebook AI 实验室 (FAIR) 和斯坦福大学的 Charles R. Qi,Or Litany,何恺明,Leonidas J. Guibas 等人发表最新论文,提出一个端到端的 3D 目标检测器 VoteNet。
论文地址:
https://arxiv.org/pdf/1904.09664.pdf
在这篇论文中,研究人员回归第一原则,为点云数据构建了一个尽可能通用的 3D 检测 pipeline。
然而,由于数据的稀疏性,直接从场景点预测边界框参数时面临一个主要挑战:一个 3D 物体的质心可能远离任何表面点,因此很难用一个步骤准确地回归。
为了解决这一问题,研究人员提出 VoteNet,这是一个基于深度点集网络和霍夫投票的端到端 3D 目标检测网络。
该模型设计简单,模型尺寸紧凑,而且效率高,在 ScanNet 和 SUN RGB-D 两大真实 3D 扫描数据集上实现了最先进的 3D 检测精度。值得注意的是,VoteNet 优于以前的方法,而且不依赖彩色图像,使用纯几何信息。
3D 目标检测的目的是对 3D 场景中的对象进行定位和识别。更具体地说,在这项工作中,我们的目标是估计定向的 3D 边界框以及点云对象的语义类。
与 2D 图像相比,3D 点云具有精确的几何形状和对光照变化的鲁棒性。但是,点云是不规则的。因此,典型的 CNN 不太适合直接处理点云数据。
为了避免处理不规则点云,目前的 3D 检测方法在很多方面都严重依赖基于 2D 的检测器。例如,将 Faster/Mask R-CNN 等 2D 检测框架扩展到 3D,或者将点云转换为常规的 2D 鸟瞰图像,然后应用 2D 检测器来定位对象。然而,这会牺牲几何细节,而这些细节在杂乱的室内环境中可能是至关重要。
在这项工作中,我们提出一个直接处理原始数据、不依赖任何 2D 检测器的点云 3D 检测框架。这个检测网络称为 VoteNet,是点云 3D 深度学习模型的最新进展,并受到用于对象检测的广义霍夫投票过程的启发。
我们利用了 PointNet++,这是一个用于点云学习的分层深度网络,以减少将点云转换为规则结构的需要。通过直接处理点云,不仅避免了量化过程中信息的丢失,而且通过仅对感测点进行计算,利用了点云的稀疏性。
虽然 PointNet++ 在对象分类和语义分割方面都很成功,但很少有研究使用这种架构来检测点云中的 3D 对象。
一个简单的解决方案是遵循 2D 检测器的常规做法,并执行 dense object proposal,即直接从感测点提出 3D 边界框。然而,点云的固有稀疏性使得这种方法不适宜。
在图像中,通常在目标中心附近存在一个像素,但在点云中却不是这样。由于深度传感器仅捕获物体的表面,因此 3D 物体的中心很可能在远离任何点的空白空间中。因此,基于点的网络很难在目标中心附近聚集场景上下文。简单地增加感知域并不能解决这个问题,因为当网络捕获更大的上下文时,它也会导致包含更多的附近的对象和杂物。
为此,我们提出赋予点云深度网络一种类似于经典霍夫投票 (Hough voting) 的投票机制。通过投票,我们基本上生成了靠近对象中心的新的点,这些点可以进行分组和聚合,以生成 box proposals。
与传统的多独立模块、难以联合优化的霍夫投票相比,VoteNet 是端到端优化的。具体来说,在通过主干点云网络传递输入点云之后,我们对一组种子点进行采样,并根据它们的特征生成投票。投票的目标是到达目标中心。因此,投票集群出现在目标中心附近,然后可以通过一个学习模块进行聚合,生成 box proposals。其结果是一个强大的 3D 物体检测器,它是纯几何的,可以直接应用于点云。
我们在两个具有挑战性的 3D 目标检测数据集上评估了我们的方法:SUN RGB-D 数据集和 ScanNet 数据集。在这两个数据集上,仅使用几何信息的 VoteNet 明显优于使用 RGB 和几何甚至多视图 RGB 图像的现有技术。我们的研究表明,投票方案支持更有效的上下文聚合,并验证了当目标中心远离目标表面时,VoteNet 能够提供最大的改进。
综上所述,我们工作的贡献如下:
在通过端到端可微架构进行深度学习的背景下,重新制定了霍夫投票,我们称之为 VoteNet。
在 SUN RGB-D 和 ScanNet 两个数据集上实现了最先进的 3D 目标检测性能。
深入分析了投票在点云 3D 目标检测中的重要性。
传统的霍夫投票 2D 检测器包括离线和在线两个步骤。
首先,给定一组带有带注释的对象边界框的图像集,使用存储在图像补丁 (或它们的特性) 和它们到相应目标中心的偏移量之间的映射构建一个 codebook。
在推理时,从图像中选择兴趣点以提取周围的补丁 (patch)。然后将这些补丁与 codebook 中的补丁进行比较,以检索偏移量并计算投票。由于对象补丁倾向于一致投票,因此集群将在目标中心附近形成。最后,通过将集群投票追溯到它们生成的补丁来检索对象边界。
我们确定这种技术非常适合我们感兴趣的问题,有两个方面:
首先,投票是针对稀疏集合设计的,因此很自然地适合于点云。
其次,它基于自底向上的原理,积累少量的局部信息以形成可靠的检测。
然而,传统的霍夫投票是由多个独立的模块组成的,将其集成到点云网络仍然是一个开放的研究课题。为此,我们建议对不同的 pipeline 部分进行以下调整:
兴趣点 (Interest points) 由深度神经网络来描述和选择,而不是依赖手工制作的特性。
投票 (Vote) 生成是通过网络学习的,而不是使用代码本。利用更大的感受野,可以使投票减少模糊,从而更有效。此外,还可以使用特征向量对投票位置进行增强,从而实现更好的聚合。
投票聚合 (Vote aggregation) 是通过可训练参数的点云处理层实现的。利用投票功能,网络可以过滤掉低质量的选票,并生成改进的 proposals。
Object proposals 的形式是:位置、维度、方向,甚至语义类,都可以直接从聚合特征生成,从而减少了追溯投票起源的需要。
接下来,我们将描述如何将上述所有组件组合成一个名为 VoteNet 的端到端网络。
图 2 描述了我们提出的端到端检测网络 VoteNet 的架构。整个网络可以分为两部分:一部分处理现有的点来生成投票;另一部分处理虚拟点 —— 投票 —— 来提议和分类对象。
给定一个包含 N 个点和 XYZ 坐标的输入点云,一个主干网络 (使用 PointNet++ 实现),对这些点进行采样和学习深度特性,并输出 M 个点的子集。这些点的子集被视为种子点。每个种子通过投票模块独立地生成一个投票。然后将投票分组为集群,并由 proposal 模块处理,生成最终的 proposal。
我们首先在两个大型 3D 室内目标检测基准上,将我们基于霍夫投票的检测器与之前最先进的方法进行比较。
然后,我们提供了分析实验来了解投票的重要性、不同的投票聚合方法的效果,并展示了我们的方法在紧凑性和效率方面的优势。
最后,我们展示了我们的检测器的定性结果。论文附录中提供了更多的分析和可视化。
结果如表 1 和表 2 所示。在 SUN RGB-D 和 ScanNet 两个数据集中,VoteNet 的性能都优于所有先前的方法,分别增加了 3.7 和 6.5 mAP。
表 1 表明,当类别是训练样本最多的 “椅子” 时,我们的方法比以前的最优方法提高 11 AP。
表 2 表明,仅使用几何输入时,我们的方法显著优于基于 3D CNN 的 3D-SIS 方法,超过了 20 AP。
投票好还是不投票好呢?
我们采用了一个简单的基线网络,称之为 BoxNet,它直接从采样的场景点提出检测框,而不需要投票。
BoxNet 具有与 VoteNet 相同的主干,但它不采用投票机制,而是直接从种子点生成框。
表 3 显示,在 SUN RGB-D 和 ScanNet 上,相比 BoxNet,投票机制的网络性能分别提高了 7 mAP 和~5 mAP。
那么,投票在哪些方面有帮助呢?我们认为,由于在稀疏的 3D 点云中,现有的场景点往往远离目标中心点,直接提出的方案可能置信度较低或不准确。相反,投票让这些较低的置信点更接近,并允许通过聚合来强化它们的假设。
在图 3 中,我们在一个典型的 ScanNetV2 场景中演示了这种现象。从图中可以看出,与 BoxNet (图左) 相比,VoteNet (图右) 提供了更广泛的 “好” 种子点的覆盖范围,显示了投票带来的稳健性。
图 6 和图 7 分别展示了 ScanNet 和 SUN RGB-D 场景中 VoteNet 检测结果的几个代表性例子。
可以看出,场景是非常多样化的,并提出了多种挑战,包括杂乱,偏见,扫描的伪像等。尽管有这些挑战,我们的网络仍显示出相当强大的结果。
例如,图 6 展示了如何在顶部场景中正确地检测到绝大多数椅子。我们的方法能够很好地区分左下角场景中连起来的沙发椅和沙发;并预测了右下角那张不完整的、杂乱无章的桌子的完整边界框。
在这项工作中,我们介绍了 VoteNet:一个简单但强大的 3D 对象检测模型,受到霍夫投票的启发。
该网络学习直接从点云向目标质心投票,并学会通过它们的特性和局部几何信息来聚合投票,以生成高质量的 object proposals。
该模型仅使用 3D 点云,与之前使用深度和彩色图像的方法相比,有了显著的改进。
在未来的工作中,我们将探索如何将 RGB 图像纳入这个检测框架,并在下游应用 (如 3D 实例分割) 汇总利用我们的检测器。我们相信霍夫投票和深度学习的协同作用可以推广到更多的应用领域,如 6D 姿态估计、基于模板的检测等,并期待在这方面看到更多的研究。
论文链接:
https://arxiv.org/pdf/1904.09664.pdf
@知乎:新智元
版权声明
本文版权归《新智元》,转载请自行联系。
历史文章推荐:
如何学会看arxiv.org才能不错过自己研究领域的最新论文?
你正在看吗?👇