基于深度学习的点云语义分割研究综述

近年来，深度传感器和三维激光扫描仪的普及推动了三维点云处理方法的快速发展。点云语义分割作为理解三维场景的关键步骤，受到了研究者的广泛关注。随着深度学习的迅速发展并广泛应用到三维语义分割领域，点云语义分割效果得到了显著提升。主要对基于深度学习的点云语义分割方法和研究现状进行了详细的综述。将基于深度学习的点云语义分割方法分为间接语义分割方法和直接语义分割方法，根据各方法的研究内容进一步细分，对每类方法中代表性算法进行分析介绍，总结每类方法的基本思想和优缺点，并系统地阐述了深度学习对语义分割领域的贡献。然后，归纳了当前主流的公共数据集和遥感数据集，并在此基础上对比主流点云语义分割方法的实验结果。最后，对语义分割技术未来的发展方向进行了展望。

近年来，随着计算机视觉、人工智能以及遥感测绘的发展，SLAM（simultaneous localization and mapping）技术、Kinect 技术以及激光扫描等技术日渐成熟，点云的数据量迅速增长，针对描述点云数据空间信息的高层语义理解也越来越受到关注。语义分割作为点云数据处理与分析的基础技术，成为自动驾驶、导航定位、智慧城市、医学影像分割等领域的研究热点，具有广泛的应用前景。语义分割是一种典型的计算机视觉问题，也称为场景标签，是指将一些原始数据（例如：二维（two-dimensional，2D）图像、三维（threedimensional，3D）点云）作为输入并通过一系列技术操作转换为具有突出显示的感兴趣区域的掩模。

点云语义分割是把点云分为若干个特定的、具有独特性质的区域并识别出点云内容的技术。由于初期三维数据模型库可用数据量较少以及深度网络由二维转到三维的复杂性，传统的点云语义分割方法大多是通过提取三维形状几何属性的空间分布或者直方图统计等方法得到手工提取特征，构建相应的判别模型（例如：支持向量机（support vector machine， SVM）[1]、随机森林（random forest，RF）[2]、条件随机场（conditional random field，CRF）[3]、马尔可夫随机场（Markov random field，MRF）[4]等）实现分割。由于手工提取的特征主要依靠设计者的先验知识以及手工调动参数，限制了大数据的使用。伴随着大型三维模型数据的出现和 GPU 计算能力的不断迭代更新，深度学习在点云语义分割领域逐渐占据了绝对主导地位。深度学习模型的核心思想是采用数据驱动的方式，通过多层非线性运算单元，将低层运算单元的输出作为高层运算单元的输入，从原始数据中提取由一般到抽象的特征。初期，研究者们借鉴二维图像语义分割模型的经验，对输入点云形状进行规范化，将不规则的点云或者网格数据转换为常规的 3D 体素网格或者多视图，将它们提供给深层的网络体系结构。然而，丢失几何结构信息和数据稀疏性等。问题限制了多视图方法和体素化方法的发展。于是，研究者开始从三维数据源头着手，斯坦福大学 Qi 等人[5]提出的 PointNet 网络模型，直接从点云数据中提取特征信息，在没有向体素转换的情况下，体系结构保留原始点内的固有信息以预测点级语义。随后，直接处理点云的网络模型方法逐渐发展起来。

目前已有一些综述性论文[6-9]对基于深度学习的点云语义分割研究进行了总结和分析。文献[6]是基于深度学习和遥感数据背景下进行的分类研究进展综述；文献[7]从遥感和计算机视觉的角度概述了三维点云数据的获取和演化，对传统的和先进的点云语义分割技术进行了比较和总结；文献[8]详细介绍了一些较为突出的点云分割算法及常见数据集；文献[9]所做的综述工作涵盖了不同的应用，包括点云数据的形状分类、目标检测和跟踪以及语义和实例分割，涉及的方面较为广泛。本文对前人工作进行了完善，在算法内容上，本文添加了最近提出的新方法，总结了 50多种三维语义分割算法，根据三维点云数据处理方式，将它们分为两类：间接语义分割方法和直接语义分割方法。数据集内容上，本文在新增最新公共数据集的同时，增加了常用的三维遥感数据集。未来研究方向上，本文在基于深度学习的语义分割技术评述基础上，对语义分割领域未来研究方向进行了展望并给出各类技术的参考性价值。

http://fcst.ceaj.org/CN/abstract/abstract2520.shtml

成为VIP会员查看完整内容