论文解读 | PASS3D：精确且快速的3D点云语义分割

2020 年 1 月 8 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

今天为大家解读的文章是 —— PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud，该文章发表于IROS 2019。

在本文中，作者提出了PASS3D来实现3D点云的逐点语义分割。该框架将传统几何方法的效率与深度学习方法的鲁棒性结合在一起，包括两个阶段：在第1阶段，使用加速的聚类提议(cluster proposal)算法，在极短的时间内通过分割没有地面的点云来生成精炼的聚类提议，从而能够减少多余的聚类，提高召回率；第2阶段，通过神经网络对这些提议进行放大和进一步处理，以估计每个点的语义标签。作者同时提出一种新颖的数据增强方法，以增强网络对所有类别的识别能力，尤其是对非刚性物体的识别。在KITTI原始数据集上进行评估后，PASS3D在某些结果上优于最新技术，使其能够胜任自动驾驶系统中的3D感知。本文的源代码将开源，视频演示可以参考https://www.youtube.com/watch?v=cukEqDuP_Qw。

主要贡献

提出了一个灵活的二阶段3D语义分割框架；
所提出的算法可以在极短的运行时间内达到很高的召回率；
为点云学习问题提出了一个新颖的数据增强方法；
在KITTI数据集上的实验表明本文算法优于state-of-the-art。

算法流程

3D点云的语义分割问题具有不同的解决方案。早先的方法基于欧氏聚类进行点云分割，这些方法足够高效但是分割结果不能提供语义信息；受图像语义分割的启发，一些研究者将3D点云投影为2D图像，再利用成熟的卷积神经网络为像素分配语义标签，但是这样做忽视了3D点云的几何信息，导致算法性能不佳；基于相机-激光雷达融合的方法可以解决上述问题，但是2D的检测在某些具有挑战性的情况下会失效，而在3D空间中是很容易解决的，此外，这类方法要处理大量的图像和点云输入，因此运行缓慢；直接对整个场景点云进行处理的方法也非常耗时，同时会面临坐标偏差带来的问题。基于上述挑战，本文提出了一个二阶段的框架PASS3D (Precise and Accelerated Semantic Segmentation for 3D Point Cloud)，高效地结合了3D几何聚类以及3D深度学习算法。其流程如图1所示。

图1 PASS3D框架

阶段一：加速的聚类提议

第一阶段包含三个步骤，首先是地面的拟合，接着基于激光束的旋转扫描特性进行聚类，最后对聚类提议进行精炼。

地面的拟合部分，地面点的分布符合以下假设：可以由平面这一简单的数学模型表示；地面点是具有最低高度的点。考虑到地面的不平整以及测量的噪声，沿着车辆前进方向将场景分为N个部分，对每个部分提取高度最低的种子点并且拟合出初始的平面模型，再判断根据垂直距离判断每个点是否属于该平面，属于平面的点将作为新的种子点拟合出新的平面，如此循环数次可以得到地面的平面表示。

在去除地面之后，采用基于激光束的旋转扫描特性的聚类方法进行聚类。KITTI数据集是由Velodyne HDL-64E激光雷达扫描得到的，具有64道光束，采集的点遵循一定的顺序。本文作者利用文献[1]中的方法进行聚类。对于属于同一条线（圈）上的点，根据距离阈值将其归为一类，随后扩张到相邻的线束上。

为每个聚类生成一个最小的3D包围框，确保其Z轴垂直于地面，根据包围框的尺寸以及包围框内的点数进行初步的过滤，排除掉不可能的聚类。点数阈值随距离变化，越远的地方点数阈值越小，其公式为：

阶段二：逐点语义分割

这一阶段包含数据准备和基于学习的语义分割两个步骤。

数据准备首先进行局部坐标的变换，如图2所示。接着进行数据的增强，如图3所示，每个样本在局部坐标系内通过旋转和翻转可以有8个旋转表示方法，将这8个样本加入训练集，并且在训练阶段随机采样，可以使网络对视角变化不敏感。

图2 聚类坐标变换

图3 数据增强

语义分割部分本文使用了PointNet++[2]作为骨干网络，从一个具有NUM个点的训练样本中随机采样N个点进行训练。为了弥补点数过多或过少造成的损失，作者还定义了一个特征n = (NUM-N) / N。此外，点在局部坐标系内的坐标、归一化的激光雷达反射强度也将作为特征输入。

实验结果

表1 PASS3D的语义分割结果。ours代表baseline，+DA代表使用了数据增强操作，+n代表使用了聚类点数作为特征，+FL代表使用了focal loss作为损失函数

图4 部分实验结果。第一行为SqueezeSeg算法的结果，第二行为本文算法的结果，第三行为ground truth。

实验评估指标为准确率，召回率以及IoU，定义为：

从表1可以看出，本文提出的算法在行人和骑行者这两个类别的IoU较当前最先进的算法有较大的提升。另外数据增强方法也使得算法结果有显著的改进。对于第一阶段的评估，使用召回率，在每帧仅30个聚类提议的情况下，可以在5ms内达到89.5%的召回率。

[1] D. Zermas, I. Izzat, and N. Papanikolopoulos, “Fast segmentation of 3d point clouds: A paradigm on lidar data for autonomous vehicle applications,” in 2017 IEEE International Conference on Robotics and Automation (ICRA), pp. 5067–5073, IEEE, 2017.

[2] C. R. Qi, L. Yi, H. Su, and L. J. Guibas, “Pointnet++: Deep hierarchical feature learning on point sets in a metric space,” in Advances in Neural Information Processing Systems, pp. 5099–5108, 2017.

Abstract

In this paper, we propose PASS3D to achieve point-wise semantic segmentation for 3D point cloud. Our framework combines the efficiency of traditional geometric methods with robustness of deep learning methods, consisting of two stages: At stage-1, our accelerated cluster proposal algorithm will generate refined cluster proposals by segmenting point clouds without ground, capable of generating less redundant proposals with higher recall in an extremely short time; stage-2 we will amplify and further process these proposals by a neural network to estimate semantic label for each point and meanwhile propose a novel data augmentation method to enhance the network’s recognition capability for all categories especially for non-rigid objects. Evaluated on KITTI raw dataset, PASS3D stands out against the state-of-the-art on some results, making itself competent to 3D perception in autonomous driving system. Our source code will be open-sourced. A video demonstration is available at https://www.youtube.com/watch?v=cukEqDuP_Qw.

在 极市平台 公众号后台回复 PASS3D ，即可获取本文下载链接。

-End-

*延伸阅读

CV细分方向交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群（已经添加小助手的好友直接私信），更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~