CVPR 2019 | 旷视Oral论文提出GeoNet：基于测地距离的点云分析深度网络

2019 年 3 月 23 日 PaperWeekly

全球计算机视觉三大顶会之一 CVPR 2019 （IEEE Conference on Computer Vision and Pattern Recognition）将于 6 月 16-20 在美国洛杉矶如期而至。届时，旷视首席科学家、研究院院长孙剑博士将带领团队远赴盛会，助力计算机视觉技术的交流与落地。在此之前，旷视每周会推出一篇 CVPR'19 接收论文解读文章。本文是第 2 篇解读，旷视 CVPR'19 Oral 论文提出一种基于测地距离的点云分析深度网络——GeoNet。

论文名称：GeoNet: Deep Geodesic Networks for Point Cloud Analysis

论文链接：https://arxiv.org/pdf/1901.00680.pdf

导语
简介
GeoNet 方法

问题陈述
方法
测地邻域估计

特征提取
测地匹配

测地融合

PU-Net
PointNet++

GeoNet实验

测地邻域估计
点云上采样
法向量估计及网格重建
非刚性形状分类

结论
参考文献
往期解读

基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索，但是，如此重要的连接性信息在点云中是缺失的。为此，旷视西雅图研究院首次提出一种全新的深度学习网络，称之为 GeoNet，可建模点云所潜在表征的网格曲面特征。

为证明这种学习型的测地表示的有效性，旷视西雅图研究院提出一种融合方案，即把 GeoNet 与其他 baseline 和 backbone 相结合，比如 PU-Net、PointNet++，用于若干对潜在网格曲面特征理解有较高要求的点云分析任务。

得益于对潜在曲面拓扑结构的理解，这一方法在点云上采样、法向量估计、网格重建及非刚性形状分类等多项经典任务上取得了新的当前最优结果。该项工作已收录为 CVPR 2019 Oral 论文。

简介

拓扑估计，即确定点云之中不同点的邻域关系，是一个很重要的问题，因为它指示着可进一步揭示点云语意和功能信息的潜在的点云结构。

▲ 图 1：GeoNet 方法示意图，其输入是一个点云，然后输出相应的表示用于多项点云分析任务。

如图 1 左边红色插框所示：这两个点集，尽管看起来不相连，但实际上应该相连为一个椅腿，作为整个椅子的一部分。另一方面，位于椅子上、下表面的点集，尽管空间上非常聚集，但却不该相连，以避免混淆可坐的上表面和不可坐的下表面。确定这样的拓扑学信息似乎是一个低阶问题，而实际上这是一项充满挑战的任务，需要全局、高阶的知识。

再次回到图 1 中的红色插框，本文由此得出结论，两个点集只有从大量点云学习到统计规则之后才相连，并观察这一类型的诸多物体，伴随着从椅子延伸到地面的相连、垂直的元素。这启发本文采取一种学习的方法来捕捉点云的拓扑学结构。

本文旨在开发一种针对潜在曲面拓扑学和物体几何学的点云数据的表示，进而提出一种利用已学习的拓扑学特征分析测地性点云的方法。

这一表示可捕捉一个点云的不同拓扑学模式，并且这一方法不会改变数据流，因此本文的表示可实现联合学习，与当前最优的 baseline 或 backbone 相结合，比如 PU-Net，PointNet++。

对于第一个目标，本文提出一种测地性邻域估计网络（Geodesic Neighborhood Estimation Network），称之为 GeoNet，通过使用 groundtruth 测地距离作为监督信号来学习深度测地表示。

如图 2 所示，GeoNet 包含两个模块：1）自动编码器，提取每一个点的特征向量；2）测量匹配层（GM），使用潜在特征充当一个已学习的核函数估计测地邻域点。

▲ 图 2：GeoNet：测地邻域估计网络。

借助于监督式的测地训练过程，GM 层的中间特征包含丰富的点云拓扑学信息以及固有的曲面属性。本文注意到，尽管表示在测地距离上训练，但由于没有施加对称性、三角不等式等基于距离的约束，所学得的表示暂时并不适合作为标准测地距离。表示的目标是为整体几何学和拓扑学的后续处理过程提供点云潜在的网格曲面特征信息，而不是直接进行指标计算。

对于第二个任务，如图 3 所示，本文提出测地融合方案，从而把 GeoNet 整合进当前最优的架构之中，完成不同的任务。

▲ 图 3：PU-Net（上）和 PointNet++（下）测地融合方案。

具体而言，本文通过 PU-Net fusion（PUF）进行点云上采样，通过 PointNet++ fusion（POF）进行法向量估计、网格重建以及非刚性形状分类。

实验表明，这种来自 GeoNet 的已学习的测地表示同时有助于几何学和语义点云分析。

方法

问题陈述

本文用表示一个点云，其中，并且。尽管问题和方法是普遍性的，本文仅使用欧式坐标作为输入，聚焦于 d=3 的情况。点 x_i 的半径 r 之内的邻域子集表示为，其中是点 x_i 和 x_j之间的欧式距离。

的系数是 K，x_i 的相应测地距离集合表示为，其中代表测地距离。本文的目标是学习函数，把每个点映射到其周遭的测地距离集合（的近似集合）。

方法

本文通过训练 GeoNet 学习上述定义的函数 f。它包含一个带有跳跃式连接（skip connections）的自动编码器层，以及一个多尺度的测地匹配层（GM），起到利用点集潜在的空间特征的作用。

GeoNet 借助集合 X 不同点之间的 groundtruth 测地距离实现监督式训练。为证明 GeoNet 表示的可用性，本文在一些需要理解潜在的表面拓扑学的经典任务上测试了该方法，具体包括点云上采样、法向量估计、网格重建以及非刚性形状分类。

为此，本文还结合了专为上述问题而设计的当前最优的架构。比如，使用 PU-Net 作为 baseline 用于点云上采样，把 PointNet++ 用于其他任务，这两种测地融合方法分别称之为 PU-Net fusion (PUF) 和 PointNet++ fusion (POF)，通过与 GeoNet 的整合，解决测地相关的点云分析问题。

测地相邻估计

如图 2 所示，GeoNet 包含两个模块：自编码器提取每个点的特征向量；GM 层利用潜在的特征充当一个已学习的测地核函数评估。

特征提取。本文使用 PointNet++ 变体提取特征，它把一个输入点集映射到特征集。为恢复点云的特征，本文还使用了带有跳跃连接的编码器。该编码器包含递归应用的三线性特征转换器，并共享全连接层、ReLU 和批归一化。所得到的（N，3+C）张量接着被馈送至 GM 层用于测地邻域估计。

测地匹配。本文把不同半径下的潜在特征归组为邻域特征集合。针对每个半径设置一个最大数量的邻域点，从而得到一个维的向量。归组的特征，连同潜在的特征，输入到一个测地匹配模块，所得特征成为一组带有 ReLU、批归一化和 Dropout 的共享 FC 层的输入。最后，GM 层为输入点云的每个点反馈一个测地核函数评估。

本文使用一个多尺度的对比 groundtruth 测地距离及其评估：

测地融合

为证明这一学习的测地表示可用于点云分析，本文结合针对不同任务的当前最优（SOTA）架构给出了新的融合方法。主要是基于 PU-Net 提出 PU-Net fusion (PUF)，基于 PointNet++ 提出 PointNet++ fusion (POF)。

PU-Net 测地融合。如图 3 上半部分所示，输入点集（N，d）并将其馈送至两个分支：Multi-scale Grouping 和 GeoNet。

接着，融合张量被馈送至 PointNet 以生成一个向量。剩余的层则来自 PU-Net。如图 3 红框所示，这个损失函数有两个权重项：

其中，L_geo 用于 GeoNet 训练，L_task 是本文当前目标任务的损失函数。在这种情况下，目标是点云上采样：。PUF 上采样把一个随机分布的稀疏点集 X 作为输入，并生成一个统一分布的密集点云。上采样因子是：

其中第一个项是上采样点集和 groundtruth 密集点云之间的地球移动距离 EMD（Earth Mover Distance）：

（3）中第二项是一个排斥损失函数，通过惩罚相近的点对来提升统一的空间分布：

PointNet++ 测地融合。图 3 下半部分给出了基于 PointNet++ 的融合方法的 pipeline。由于 PU-Net 和 PointNet++ 所面向的任务以及架构的不同，本文对 PUF 做了以下改变以设计一种使用 PointNet++ 的适宜的融合策略。

首先，对于 multi-scale grouping，本文使用学习的测地邻域而不是欧氏邻域。其次，尽管 PUF 层把每一邻域点集已估计的融合进 backbone，在 GeoNet 中 POF 层依然使用提取自倒数第二个全连接层的潜在测地特征。第三，在 PointNet++ 融合中，借助最远点采样，本文以分层方式应用 POF 层。

因此，已学习的特征同时编码点集的局部和全局的结构化信息。本文借助 L_1 误差估计点云法向量：

接着，本文使用所估计的法向量通过泊松曲面重建（Poisson surface reconstruction）生成网格。为分类非网格物体的点云，本文使用交叉熵损失函数：

实验

本文通过评估点云测地邻域对 GeoNet 进行性能测试。为证明已学习的深度测地表示的可用性，本文在一系列对潜在曲面网格特征理解有所要求的点云任务上进行了实验，比如点云上采样、法向量估计、网格重建、非刚性形状分类。

测地邻域估计

通过使用具有 512 个均布点的点云，表 1 展示了 ShapeNet 数据集上的测地距离集合、和估计结果，并给出了多个半径下的平均方误差（MSE）。

▲ 表 1

GeoNet 在 baselines 上有持续提升，代表性结果如图 4 所示。本文方法捕捉到不同的拓扑学模式，比如弯曲面，分层结构，外部/内部部分等等。

▲ 图 4：测地邻域估计的表示结果。

点云上采样

本文在点云上采样任务重测试 PUF，结果如表 3 所示。本文在 3 个指标上与当前最优的点云上采样方法 PU-Net 进行了对比：MSE、EMD 以及倒角距离 CD（Chamfer Distance）。

▲ 表 3

由于测地邻域较于欧氏邻域具有更丰富的潜在点集拓扑学信息，PUF 上采样产生更少的异常值，并复原更多的细节，比如曲线及尖锐结构，如图 5 所示。

▲ 图 5：PUF 与 PU-Net 的点云上采样结果对比。

法向量估计及网格重建

本文将 PointNet++ 测地融合方法 POF 应用于法向量估计，接着借已完成的法向量估计做泊松曲面重建。Shrec15 和 ShapeNet 数据集上的法向量估计量化结果如表 4 和表 5 所示。通过对比传统的 PCA 算法和当前最优的深度学习方法 PointNet++，POF 有 10% 左右的相对提升。

▲ 表 4

▲ 表 5

非刚性形状分类

非刚性形状分类的实验结果如表 6 所示。尽管 POF 和 PointNet++ 只把欧式坐标系的点云作为输入，DeepGM 需要在 groudtruth 测地度量空间中利用精确网格数据获取线下计算的固有特征。尽管所用数据信息量更少，但 POF 相较其他方法精度更高。

▲ 表 6

这进一步证明，POF 更适合解决需要理解潜在点云曲面属性的任务。

结论

本文提出 GeoNet，一种全新的深度学习架构，可学习点云基于测地空间的拓扑学结构。其训练过程在 groundtruth 测地距离的监督之下进行，因此已学习的表示可反映出点云所潜在表征的网格曲面特征。

为证明这一拓扑学结构的有效性，本文借助融合方法把 GeoNet 与当前最优的点云分析 baseline 或 backbone 整合为一种计算方案，在点云上采样、法向量估计、网格重建及非刚性形状分类等几何学及语义任务上的实验结果表明，GeoNet 性能优于当前最佳同类方法。

参考文献

[1] L. Yu, X. Li, C.-W. Fu, D. Cohen-Or, and P.-A. Heng. Pu- net: Point cloud upsampling network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni- tion, pages 2790–2799, 2018.

[2] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 1(2):4, 2017.

[3] C.R.Qi,L.Yi,H.Su,andL.J.Guibas.Pointnet++:Deephi- erarchical feature learning on point sets in a metric space. In Advances in Neural Information Processing Systems, pages 5099–5108, 2017.

[4] X. Han, T. Leung, Y. Jia, R. Sukthankar, and A. C. Berg. Matchnet: Unifying feature and metric learning for patch- based matching. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3279– 3286, 2015.

[5] M.KazhdanandH.Hoppe.Screenedpoissonsurfacerecon- struction. ACM Transactions on Graphics (ToG), 32(3):29, 2013.

往期解读：CVPR 2019 | 旷视提出 GIF2Video：首个深度学习 GIF 质量提升方法