近年来,深度传感器和三维激光扫描仪的普及推动了三维点云处理方法的快速发展。点云语义分割作为理解三维场景的关键步骤,受到了研究者的广泛关注。随着深度学习的迅速发展并广泛应用到三维语义分割领域,点云语义分割效果得到了显著提升。主要对基于深度学习的点云语义分割方法和研究现状进行了详细的综述。将基于深度学习的点云语义分割方法分为间接语义分割方法和直接语义分割方法,根据各方法的研究内容进一步细分,对每类方法中代表性算法进行分析介绍,总结每类方法的基本思想和优缺点,并系统地阐述了深度学习对语义分割领域的贡献。然后,归纳了当前主流的公共数据集和遥感数据集,并在此基础上对比主流点云语义分割方法的实验结果。最后,对语义分割技术未来的发展方向进行了展望。
近年来,随着计算机视觉、人工智能以及遥感测绘 的发展,SLAM(simultaneous localization and mapping) 技术、Kinect 技术以及激光扫描等技术日渐成熟,点 云的数据量迅速增长,针对描述点云数据空间信息 的高层语义理解也越来越受到关注。语义分割作为 点云数据处理与分析的基础技术,成为自动驾驶、导 航定位、智慧城市、医学影像分割等领域的研究热 点,具有广泛的应用前景。语义分割是一种典型的 计算机视觉问题,也称为场景标签,是指将一些原始 数据(例如:二维(two-dimensional,2D)图像、三维(threedimensional,3D)点云)作为输入并通过一系列技术 操作转换为具有突出显示的感兴趣区域的掩模。
点云语义分割是把点云分为若干个特定的、具 有独特性质的区域并识别出点云内容的技术。由于 初期三维数据模型库可用数据量较少以及深度网络 由二维转到三维的复杂性,传统的点云语义分割方 法大多是通过提取三维形状几何属性的空间分布或 者直方图统计等方法得到手工提取特征,构建相应 的判别模型(例如:支持向量机(support vector machine, SVM)[1]、随机森林(random forest,RF)[2]、条件随机场 (conditional random field,CRF)[3]、马尔可夫随机场 (Markov random field,MRF)[4]等)实现分割。由于手 工提取的特征主要依靠设计者的先验知识以及手工 调动参数,限制了大数据的使用。伴随着大型三维 模型数据的出现和 GPU 计算能力的不断迭代更新, 深度学习在点云语义分割领域逐渐占据了绝对主导 地位。深度学习模型的核心思想是采用数据驱动的 方式,通过多层非线性运算单元,将低层运算单元的 输出作为高层运算单元的输入,从原始数据中提取 由一般到抽象的特征。初期,研究者们借鉴二维图 像语义分割模型的经验,对输入点云形状进行规范 化,将不规则的点云或者网格数据转换为常规的 3D 体素网格或者多视图,将它们提供给深层的网络体 系结构。然而,丢失几何结构信息和数据稀疏性等。问题限制了多视图方法和体素化方法的发展。于 是,研究者开始从三维数据源头着手,斯坦福大学 Qi 等人[5]提出的 PointNet 网络模型,直接从点云数据中 提取特征信息,在没有向体素转换的情况下,体系结 构保留原始点内的固有信息以预测点级语义。随 后,直接处理点云的网络模型方法逐渐发展起来。
目前已有一些综述性论文[6-9]对基于深度学习的 点云语义分割研究进行了总结和分析。文献[6]是基 于深度学习和遥感数据背景下进行的分类研究进展 综述;文献[7]从遥感和计算机视觉的角度概述了三 维点云数据的获取和演化,对传统的和先进的点云 语义分割技术进行了比较和总结;文献[8]详细介绍 了一些较为突出的点云分割算法及常见数据集;文 献[9]所做的综述工作涵盖了不同的应用,包括点云 数据的形状分类、目标检测和跟踪以及语义和实例 分割,涉及的方面较为广泛。本文对前人工作进行 了完善,在算法内容上,本文添加了最近提出的新方 法,总结了 50多种三维语义分割算法,根据三维点云 数据处理方式,将它们分为两类:间接语义分割方法 和直接语义分割方法。数据集内容上,本文在新增 最新公共数据集的同时,增加了常用的三维遥感数 据集。未来研究方向上,本文在基于深度学习的语 义分割技术评述基础上,对语义分割领域未来研究 方向进行了展望并给出各类技术的参考性价值。