前不久一篇探讨过去十年深度度量学习研究进展的研究引发热议,不公平的实验设置等因素会使人们对领域进展产生误解。那么 3D 点云算子领域的进展是真实的吗?中科大和微软亚研的研究人员进行了系统性评估,并提出了无需可学参数的新型 3D 点云算子 PosPool。
近些年涌现了很多不同的 3D 点云网络和算子,它们在常见基准评测集上的性能逐步提升,但是由于各种网络采用不同的局部算子、整体网络结构和实现细节,人们对该领域的实质进步一直缺乏准确地评估。 最近,中科大 - 微软亚洲研究院的研究员在 ECCV 2020 上发表文章,尝试进行更准确、公平地评估。他们的研究指出: 1)无需更复杂的 3D 网络,经典的深度残差网络就能在各种规模和各种场景的数据集上表现优异。结合几种典型局部算子后,它们均能在 PartNet 上超过 SOTA 7 个点以上。 2)几种典型的 3D 局部算子在相同的整体网络下的表现令人惊奇的一致,一种极简无参的位置池化算子 PosPool 即能比肩各种更复杂的 3D 局部算子。 论文作者还表示,他们的方法没有引入各种复杂的设计,希望这一基准方法可以让今后 3D 点云识别的研究受益。
论文链接:https://arxiv.org/abs/2007.01294
代码地址:https://github.com/zeliu98/CloserLook3D
近年来,随着 3D 扫描设备的普及,针对 3D 点云的分析和感知在诸如自动驾驶、机器人、形状匹配和识别等任务中得到了越来越广泛地关注和应用。与在网格上定义的图像和视频不同,点云数据是无序的且非网格化排列,这使得为网格化数据设计的功能强大的卷积神经网络(CNN)等深度神经网络难以得到应用。为了解决这一问题,自 PointNet++ 起,学者们提出了各种各样的网络,DGCN、Continuous Conv、DeepGCN、KPConv 等等,它们依赖于不同的网络结构和不同的 3D 局部算子。 然而,由于不同工作在整体网络架构、实现细节和局部算子上有所不同,这些 3D 网络和算子的实质进步一直缺乏准确地评估,这严重阻碍了对 3D 网络和算子的进一步理解和创新。另一方面,大部分 3D 算子仅在浅层网络中进行了应用和验证,它们在更深层的深度残差网络下的表现仍属未知。 最近,微软亚洲研究院的研究员发表在 ECCV 2020 上的工作尝试对现有的代表性 3D 网络和算子进行更公平的比较和评估。 该研究发现:尽管不同的 3D 算子设计各异,但在相同整体网络和实现细节下,所有这些算子的性能都惊人地相似,均在几个代表性的基准评测集上达到了目前最好的准确率。 基于这一发现,该研究作者重新思考了为 3D 点云处理设计各种复杂 3D 算子的必要性。为此,他们提出了一种简单的、无需可学参数的 3D 算子——「位置池化」(PosPool),并发现它与目前各种复杂的算子相比性能不差,甚至表现略优。 该算子结合最基本的深度残差网络,就可以在极具挑战性的 PartNet 数据集上超过之前的最佳方法高达 7.4 个点之多。 3D 局部算子通用数学表述和分类 该研究首先总结了不同的 3D 局部算子,并提出了一种通用数学表述,根据该通用数学表述对常见的 3D 算子做了总结和分类。 具体来说,针对每个 3D 点,点云局部算子都是将该邻域内的输入特征进行聚合的一个操作,在聚合过程中会考虑邻域点和中心点的相对位置关系: