「深度学习3D点云处理」最新2022进展综述

2022 年 9 月 4 日 专知

深度学习在２维图像等结构化数据处理中表现出了优越性能,对非结构化的点云数据分析处理的潜力已经成为计算机图形学的重要研究方向,并在机器人、自动驾驶、虚拟及增强现实等领域取得一定进展．通过回顾近年来３维点云处理任务的主要研究问题,围绕深度学习在３维点云形状分析、结构提取、检测和修复等方向的应用,总结整理了典型算法．介绍了点云拓扑结构的提取方法,然后对比分析了变换、分类分割、检测跟踪、姿态估计等方向的以构建神经网络为主要研究方法的进展．最后,总结常用的３维点云公开数据集,分析对比了各类方法的特点与评价指标,指出其优势与不足,并从不同角度对基于深度学习的方法处理点云数据所面临的挑战与发展方向进行了讨论．

随着３维传感器的迅速发展,３维数据变得无处不在,利用深度学习方法对这类数据进行语义理解和分析变得越来越重要．不同３维数据(体素、网格等)表示下,深度学习的方法不尽相同,但这些方法应用于点云中都有一定的局限性,具体表现为:体素化方法会受到分辨率的限制;转换为２维图像的方法在形状分类和检索任务上取得了优越性能,但将其扩展到场景理解或其他３维任务(如姿态估计)有一定的困难;光谱卷积神经网络限制在流形网格;基于特征的深度神经网络会受到所提取特征表示能力的限制[１]．

点云本身具有的无序性与不规则性为利用深度学习方法直接处理该类数据带来一定挑战性:１)规模局限性．现有研究方法一般针对小规模点云,而能处理大型点云的方法也需要切割处理,即将其分为小块后再处理．但切割可能会造成点云整体信息的丢失．２)遮挡．当被扫描对象被遮挡时,将直接导致信息的丢失,这为后续任务的处理带来严重影响．３) 噪声．由于点云数据本身就是３维空间内的点集,噪声的存在直接影响点云模型的正确表示,在形状识别等任务中会造成精度的降低．４)旋转不变．对于同一模型,旋转不同角度仍表示同一对象,网络识别结果不应由于角度不同而产生差异．随着近年来激光雷达等传感设备及相关技术的发展,３维点云的扫描与获取更为便捷,其处理技术在机器人、自动驾驶及其他领域的实际应用中已取得一定进展．基于深度学习的蓬勃发展,研究者提出了许多方法来解决相关领域的不同问题．

本文对基于深度学习的点云处理任务进行详细阐述．本文的主要贡献有４个方面:

１)从机器人、自动驾驶、虚拟和增强现实以及医学４个领域介绍点云处理技术的应用情况;

２)探讨点云拓扑结构与形状分析在应用于点云处理任务中的必要性,并总结对比多种算法;

３)归纳基于点云数据处理相关任务的方法,主要包括模型重建与变换、分类分割、检测跟踪与姿态估计,着重讨论基于深度学习的方法,并给出各种方法的优劣比较;

４)总结多个公开点云数据集,并分析各数据集中不同方法能处理的不同任务．

１基本概念及应用情况

1.1 深度学习

机器学习推动现代科技手段的进步．网络的内容过滤及推荐、语音文本的转换及医学影像分析等应用程序越来越多地使用深度学习技术．

１) 基础概念

深度学习善于发现高维数据中的复杂结构,因此可应用于科学、商业和医学等诸多领域．深度学习利用多处理层组成的计算模型学习具有抽象层次的数据表示,关键在于其目标特征不是人类指定的,而是从大量数据中学习获取的,深度神经网络已经成为人工智能的基础．多层感知机或全连接网络堆叠线性层和非线性激活层,是神经网络的经典类型．卷积网络引入卷积层和池化层,在处理图像、视频和音频方面取得了突破性进展．递归网络可有效处理文本语音等具有连续性的数据．TransＧ former利用selfＧattention机制提取特征,最早用于处理自然语言[２Ｇ３]．

２) 框架平台

为了实现更复杂的模型,若从头开始编写代码, 效率非常低,因此深度学习框架应运而生．本节介绍常用的深度学习框架,并将其汇总于表１中．目前常用于点云处理的框架更多为 TensorFlow 与 PyTorch,其他框架如 Caffe与Jittor等也可用于处理点云,但应用较少．

1.2 点云处理任务

３维几何模型中,点云已经成为主要表达方式之一,其应用于深度学习中的处理技术已取得一定成果．在不同任务驱动下,本文以构建神经网络为主要方法,通过分类与整理相关文献,将点云处理任务分为模型重建与变换、分类分割、检测跟踪与姿态估计几大类．本节总结其基本概念．

模型重建与变换包括形状修复、模型补全与变形．扫描获取到的数据并不能完美表征原物体的特性,很可能存在缺漏或误差,造成模型不完整、扭曲, 故而需要对该模型进行处理,使其尽可能贴合原物体模型或目标模型,处理手段即为重建与变换．分类分割主要包括分类、部件分割、语义分割与实例分割．在诸如机器人抓取等需求中,必须明确所抓取对象的分类,即需要判断其信息,判断即为对场景中对象语义信息标记与分类．检测跟踪主要包括３维对象检测、场景流估计与目标跟踪．在诸如自动驾驶等应用中,需要明确路径与方向,确定追踪对象,并能依据当前状态自动调节或人为干预使其后续运动符合预期目标．姿态估计主要包括位姿估计与手部姿态估计．前者需要确定对象的位置与方向,如工厂喷漆中,喷枪需要依据目标不断改变其位置与指向．后者则是为了理解人类肢体语言,如在体感游戏中,根据肢体变换执行相应游戏操作．

1.3 应用情况

３维点云处理目前在实际应用中已经取得了一定的进展．本节以应用为导向,从机器人领域、自动驾驶领域及虚拟、增强现实领域及医学领域４个角度介绍点云处理技术的应用情况．

1.3.1 机器人领域

机器人抓取技术的核心在于目标识别和定位．２０１９年 Lin等人[４]利用深度神经网络学习物体外在形状,并训练网络在获取物体局部表面时也能成功抓取目标．在机器人室内定位及导航技术方面,２０２０年 Khanh等人[５]设计了新的云端导航系统．云端导航下机器人能更准确地移动到目标位置．该技术可应用于位置服务需求,如盲人导航．针对喷漆机器人的自动化操作,２０１９年 Lin等人[６]利用迭代最近点(iterativeclosestpoint,ICP) 算法进行姿态估计,计算物体部件的位置误差,并重新调整机器人的方向,以完成所需的喷漆任务．２０２０年 Parra等人[７]设计了能够在地板下的空隙中进行隔热喷涂以提高建筑的强度及使用年限的机器人．他们针对地形不均匀等情况,提出定位模块．机器人依据传感器获取连续点云的信息．Yang等人[８]基于点云模型表示的家具表面路径规划和边缘提取技术提出边缘喷涂,获取喷涂枪路径点序列和对应姿态．在家具等工件的生产流程中,该方法能够根据喷涂系统坐标系与家具姿态的不同,自适应地调整二者的坐标关系,以实现正确喷涂的目的．

1.3.2 自动驾驶领域

自动驾驶系统的性能受环境感知的影响．车辆对其环境的感知为系统的自动响应提供了基础．２０１７年 Hanke等人[９]提出采用光线追踪的汽车激光雷达传感器实现实时模型测量方法．使用由真实世界场景的测量构建的虚拟环境,能够在真实世界和虚拟世界传感器数据之间建立直接联系．２０１９年Josyula等人[１０]提出了利用机器人操作系统(robotoperating system,ROS)和点云库(pointcloudlibrary,PCL) 对点云进行分割的方法．它是为自动驾驶车辆和无人机的避障而开发的,具体涉及障碍物检测与跟踪．激光雷达(lightdetectionandranging,LIDAR) 和视觉感知是高水平(L４ＧL５)飞行员成功自动避障的关键因素．为了对大量数据进行点云标记,２０２０年 Li等人[１１]提出针对３维点云的标注工具,实现了点云３维包围盒坐标信息到相机与 LIDAR 联合标定后获得的２维图像包围盒的转换．基于图的同步定位与建图(simultaneouslocaliＧ zationandmapping,SLAM)在自动驾驶中应用广泛．实际驾驶环境中包含大量的运动目标,降低了扫描匹配性能．２０２０年 Lee等人[１２]利用加权无损检测 (扫描匹配算法)进行图的构造,在动态环境下也具有鲁棒性．

1.3.3 虚拟、增强现实领域

为了更好地了解室内空间信息,２０１５年 Tredinnick 等人[１３] 创建了能够在沉浸式虚拟现实 (virtual reality,VR)显示系统中以较快的交互速率可视化大规模 LIDAR 点云的应用程序,能够产生准确的室内环境渲染效果．２０１６年 Bonatto等人[１４]探讨了在头戴式显示设备中渲染自然场景的可能性．实时渲染是使用优化的子采样等技术来降低场景的复杂度实现的,这些技术为虚拟现实带来了良好的沉浸感．２０１８年 Feichter等人[１５]提出了在真实室内点云场景中抽取冗余信息的算法．其核心思想是从点云中识别出平面线段,并通过对边界进行三角剖分来获取内点,从而描述形状．生成可用于训练新模型的标注已成为机器学习中独立的研究领域,它的目标是高效和高精度．标注３维点云的方法包括可视化,但这种方法是十分耗时的．2019年 Wirth等人[１６]提出了新的虚拟现实标注技术,它大大加快了数据标注的过程． LTDAR为增强现实(augmentedreality,AR) 提供了基本的３维信息支持．2020年 Liu等人[１７]提出学习图像和 LIDAR 点云的局部特征表示,并进行匹配以建立２维与３维空间的关系．使用手势自然用户界面(naturaluserinterface, NUI)对于头戴式显示器和增强及虚拟现实等可穿戴设备中虚拟对象的交互至关重要．然而,它在 GPU 上的实现存在高延迟,会造成不自然的响应．2020年Im 等人[１８]提出基于点云的神经网络处理器．该处理器采用异构内核结构以加速卷积层和采样层, 实现了使用 NUI所必需的低延迟．

1.3.4 医学领域

医学原位可视化能够显示患者特定位置的成像数据,其目的是将特定病人的数据与３维模型相结合,如将手术模拟过程直接投影到患者的身体上,从而在实际位置显示解剖结构．2011年Placitelli等人[１９] 采用采样一致性初始配准算法 (sampleconsensus initialalignment,SACＧIA),通过快速配准三元组计算相应的匹配变换,实现点云快速配准．模拟医学图像如 X 射线是物理学和放射学的重要研究领域．2020年 Haiderbhai等人[２０]提出基于条件生成式对抗网络 (conditionalgenerative adversarialnetwork,CGAN)的点云 X射线图像估计法．通过训练 CGAN 结构并利用合成数据生成器中创建的数据集,可将点云转换成 X射线图像．

２模型形状结构

了解并确定高层形状结构及其关系能够使得模型感知局部和全局的结构,并能通过部件之间的排列和关系描绘形状,这是研究形状结构分析的核心课题．随着真实世界的扫描和信息的挖掘,以及设计模型规模的增大,在大量信息中进行３维几何模型的识别和分析变得越来越重要。

３模型重建与变换

由于遮挡等多种因素的限制,利用激光雷达等点云获取设备得到的数据存在几何信息和语义信息的丢失以及拓扑结构的不确定,这直接导致了数据的质量问题．为后续任务的处理带来极大挑战．

４形状分类与分割

基于检索或划分的目的,对具有相似特征或相同属性的点云数据进行区域的分割或属性的分类是极其重要的．

５目标检测与跟踪

自动驾驶、机器人设计等领域中,３维目标检测与跟踪至关重要．自动驾驶车辆和无人机的避障等实际应用中,涉及障碍物检测与跟踪．

5.1 ３维目标跟踪

目标跟踪是推测帧的属性并预测变化,即推断对象的运动情况,可以利用预测对象的运动信息进行干预使之实际运动符合预期目标或用户要求．为了从点云中推断出目标对象的可移动部件以及移动信息,２０１９年 Yan等人[６７]提出 RPMＧNet．其特定的体系结构够预测对象多个运动部件在后续帧中的运动,同时自主决定运动何时停止．２０２０年 Wang等人[６８]提出 PointTrackNet．网络中提出了新的数据关联模块,用于合并２帧的点特征,并关联同一对象的相应特征．首次使用３维 Siamese跟踪器并应用于点云的是 Giancola等人[６９]．基于 Achlioptas等人[７０]提出的形状完成网络,２０１９年 Giancola等人[６９]通过使用给定对象的语义几何信息丰富重编码后的表示来提高跟踪性能．２０１９年Burnett等人[７１]提出aUToTrack,使用贪婪算法进行数据关联和扩展卡尔曼滤波(extended Kalmanfilter,EKF)跟踪目标的位置和速度．Simon 等人[７２]融合２维语义信息及 LIDAR 数据,还引入了缩放旋转平移分数(scaleＧrotationＧtranslationscore, SRTs),该方法可更好地利用时间信息并提高多目标跟踪的精度．文献[６７]可以从开始帧和结束帧的移动部分导出变化范围,故参数中不含变换范围,减少了参数个数．文献[６８]提供的跟踪关联信息有助于减少目标短期消失的影响,其性能比较稳定,但是当汽车被严重遮挡时,结果会出现问题．文献[６９]解决了相似性度量、模型更新以及遮挡处理３方面的问题,但该方法直接利用对称性来完善汽车整体形状会导致更多噪声．文献[７１]实际需要计算被检测物体的质心,这种方法能有效检测行人,但对于汽车来说,其结果并不准确．文献[７２]提出的 SRTs可用于快速检测目标,提高了准确性和鲁棒性．

5.2 ３维场景流估计

机器人和人机交互中的应用可以从了解动态环境中点的３维运动,即场景流中受益．以往对场景流的研究方法主要集中于立体图像和 RGBＧD 图像作为输入,很少有人尝试从点云中直接估计．２０１９年 Behl等人[７３]提出 PointFlowNet,网络联合预测３维场景流以及物体的３维包围盒和刚体运动．Gu等人[７４]提出 HPLFlowNet,可以有效地处理非结构化数据,也可以从点云中恢复结构化信息．能在不牺牲性能的前提下节省计算成本．Liu等人[７５] 提出 FlowNet３D．由于每个点都不是“独立”的,相邻点会形成有意义的信息,故而 FlowNet３D 网络嵌入层会学习点的几何相似性和空间关系．文献[７３]先检测出object并计算出egomotion 和sceneflow,再去回归各个object的 motion,它从非结构化点云中直接估计３维场景流．文献[７４Ｇ７５] 的整体结构类似,都是下采样融合上采样,直接拟合出sceneflow．

5.3 ３维目标检测与识别

在城市环境中部署自动型车辆是一项艰巨的技术挑战,需要实时检测移动物体,如车辆和行人．为了在大规模点云中实现实时检测,研究者针对不同需求提出多种方法．２０１９年 Shi等人[７６]提出 PointRCNN,将场景中的点云基于包围盒生成真实分割掩模,分割前景点的同时生成少量高质量的包围盒预选结果．在标准坐标中优化预选结果来获得最终检测结果．２０１９年 Lang等人[７７]提出编码器 PointPillars．它学习在 pillars 中组织的点云表示,通过操作 pillar,无需手动调整垂直方向的组合．由于所有的关键操作都可以表示为２维卷积,所以仅使用２维卷积就能实现端到端的３维点云学习．考虑到模型的通用性,２０１９年 Yang等人[７８]提出STD,利用球形锚生成精确的预测,保留足够的上下文信息．PointPool生成的规范化坐标使模型在几何变化下具有鲁棒性．box预测网络模块消除定位精度与分类得分之间的差异,有效提高性能．２０１９年 Liu等人[７９]提出大规模场景描述网络 (largeＧscaleplacedescriptionnetwork,LPDＧNet)．该网络采用自适应局部特征提取方法得到点云的局部特征．此外,特征空间和笛卡儿空间的融合能够进一步揭示局部特征的空间分布,归纳学习整个点云的结构信息．为了克服一般网络中点云规模较小的局限性, ２０１９年Paigwar等人[８０]提出 AttentionalPointNet．利用 Attentional机制进行检测能够在大规模且杂乱无章的环境下重点关注感兴趣的对象．２０２０年 Shi等人[８１]提出 PVＧRCNN．它执行２步策略:第１步采用体素 CNN 进行体素特征学习和精确的位置生成,以节省后续计算并对具有代表性的场景特征进行编码;第２步提取特征,聚集特征可以联合用于后续的置信度预测和进一步细化．文献[７６]生成的预选结果数量少且质量高．文献[７７]能够利用点云的全部信息,其计算速度较快．文献[７８]能够将点特征从稀疏表示转换为紧凑表示,且用时较短．文献[７９]充分考虑点云的局部结构,自适应地将局部特征作为输入,在不同天气条件下仍能体现出健壮性．文献[８０]不必处理全部点云, 但预处理步骤使得计算成本较大．文献[８１]结合基于体素的与基于 PointNet的优势,能够学习更具鉴别力的点云特征．

5.4 算法性能对比分析

跟踪算法中,文献[６７]主要关注的是物体部件的跟踪,文献[６８]与文献[６９]则主要检测同一物体在不同时间的状态．文献[６７]的优势在于可以同时预测多个运动部件及其各自的运动信息,进而产生基于运动的分割．该方法实现高精度的前提是输入对象的几何结构明确,否则很有可能会生成不完美的运动序列．文献[６８]在快速变化的情况下,如突然刹车或转弯,其结果仍可靠．但是当目标被严重遮挡时,其结果并不可靠．由于大多数模型(如汽车模型) 只能从单侧看到,文献[６９]利用对称性完善汽车形状的方法未必是有效的．文献[７１]的处理方法较简单且用时较短,在 CPU 上运行时间不超过７５ms．它能在检测行人时达到较高性能．但用于拥挤道路的自动驾驶时,其采用的质心估计对于汽车并不准确．文献[７２]同时利用２维信息与３维 LIDAR 数据, 且使用的SRTs指标可缩短训练时间．场景流估计算法中,文献[７３]联合３维场景流和刚性运动进行预测,其效率较高且处理不同运动时具有鲁棒性．文献[７４]与文献[７５]都以端到端的方式从点云中学习场景流．前者从非结构化的点云中恢复结构化,在生成的网格上进行计算,后者则是在点云的连续帧中计算．检测算法中,文献[７６]不会在量化过程中丢失信息,也不需要依赖２维检测来估计３维包围盒,故而可以充分利用３维信息．文献[７７]的处理速度较快,计算效率较高．文献[７８]具有较高的计算效率和较少的计算量,能够同时集成基于点和基于体素的优点．文献[７９]引入局部特征作为网络输入,有助于充分了解输入点云的局部结构．文献[８０]能够有效地获取数据的３维几何信息．但是,将点云裁剪成较小区域等预处理步骤增加了计算成本．文献[８１]结合了基于体素与基于 PointNet的优点,不仅保留了精确的位置,而且编码了丰富的场景上下文信息．

表４给出 KITTI数据集下不同算法处理跟踪任务的性能对比．指标为多目标跟踪准确度(multiＧ objecttrackingaccurancy,MOTA)、多目标跟踪精确度(multiＧobjecttrackingprecision,MOTP)、目标大部分被跟踪到的轨迹占比(mostlytracked,MT)、目标大部分跟丢的轨迹占比 (mostlylost, ML)、ID改变总数量(IDswitches,IDS)、跟踪过程中被打断的次数(fragmentation,FRAG)及每秒帧数(framespersecond,FPS)．

表５给出在 KITTI数据集下３维检测框(３Ｇ dimensionaldetectionbenchmark,３D)、BEV 视图下检测框(birdeyeviewdetectionbenchmark,BEV) 与检测目标旋转角度(averageorientationsimilarity detectionbenchmark,AOS)的检测结果．其中,评估指标为AP,IoU 阈值为:汽车０.７,行人和自行车０.５．

６姿态估计

３维姿态估计即确定目标物体的方位指向问题, 在机器人、动作跟踪和相机定标等领域都有应用．

6.1 位姿估计

解决３维可视化问题的中间步骤一般是确定３维局部特征,位姿估计是其中最突出的问题．２０１７年 Elbaz等人[８２]提出的 LORAX 采用了可以处理不同大小点云的设置,并设计了对大规模扫描数据有效的算法．２０１９年 Speciale等人[８３]将原始３维点提升到随机方向的３维线上,仅存储３维线和３维点的关联特征描述符,这类映射被称为３维线云．２０１９年 Zhang等人[８４]从目标点云中自动提取关键点,生成对刚性变换不变的逐点特征,利用层次式神经网络预测参考姿态对应的关键点坐标．最后计算出当前姿态与参考姿态之间的相对变换．２０１８年 Deng等人[８５]提出了 PPFＧFoldNet,通过点对特征(pointpairfeature,PPF)对局部３维几何编码,建立了理论上的旋转不变性,同时兼顾点的稀疏性和置换不变性,能很好地处理密度变化．考虑到成对配准描述符也应该为局部旋转的计算提供线索,２０１９年 Deng等人[８６]提出端到端的配准方法．这种算法在 PPFＧFoldNet [８５]的工作基础上, 通过学习位姿变换将３维结构与６自由度运动解耦．该方法基于数据驱动来解决２点云配准问题．２０２０年 Kurobe等人[８７]提出 CorsNet,连接局部特征与全局特征,不直接聚集特征,而是回归点云之间的对应关系,比传统方法集成更多信息．文献[８２]解决了２点云之间点数相差数倍的问题,它简单、快速,并且具备扩展性,但在极端情况下,其结果会出错．文献[８３]只使用了一个几何约束,其准确性与召回率可以与传统方法媲美,但这种方法的速度较慢．文献[８４]需要较少的训练数据,因此对于没有纹理的对象,它更快、更精确．文献[８５] 继承了多个网络框架的优点,且充分利用点云稀疏性,能够快速提取描述符．文献[８６]提高了成对配准的技术水平且减少了运行时间．文献[８７]结合了局部与全局特征,从平移和旋转的角度而言准确性较高．表６上半部分给出位姿估计算法的核心方法及优势对比分析．

6.2 手部姿态估计

点云作为更简单有效的数据表示方法,其输入的点集和输出的手部姿态共享相同表示域,有利于学习如何将输入数据映射到输出姿态上．为了直接从点云中估计手部姿态,同样以手部３维点云为输入,２０１８年 Chen等人[８８]提出语义手部姿态回归网络 (semantichandposeregression network,SHPRＧNet),通过学习输入数据的变换矩阵和输出姿态的逆矩阵应对几何变换的挑战．Ge等人[８９]提出的方法输出反映手部关节的每点贴近度和方向的 heatＧmaps和单位向量场,并利用加权融合从估计的heatＧmaps和单位向量场中推断出手部关节位置．２０１９年 Li等人[９０]提出的方法以置换等变层(permutationequivariantlayer,PEL)为基本单元,构建了基于 PEL 的残差网络模型．且手部姿态是利用点对姿势的投票方案来获得的,这避免了使用最大池化层提取特征而导致的信息丢失．现有的手部姿态估计方法大多依赖于训练集, 而在训练数据上标注手部３维姿态费时费力．２０１９年 Chen等人[９１]提出的 SOＧHandNet旨在利用未注记数据以半监督的方式获得精确的３维手部姿态估计．通过自组织映射(selfＧorganizingmap,SOM) 模拟点的空间分布,然后对单个点和 SOM 节点进行层次化特征提取,最终生成输入点云的判别特征．２０１８年 Ge等人[９２]提出 HandPointNet,提出的精细化网络可以进一步挖掘原始点云中更精细的细节,能够回归出更精确的指尖位置．Huang等人[９３] 认为学习算法不仅要研究数据的内在相关性,而且要充分利用手部关节之间的结构相关性及其与输入数据的相关性．基于此,２０２０年他们提出非自回归手部transformer(nonＧautoregressivehandtransformer, NARHT),以关节特征的形式提供参考手部姿态, 利用其固有的相关性来逼近输出姿态．文献[８８]对点云的几何变换具有鲁棒性．文献 [８９]能够很好地捕捉空间中点云的结构信息．文献 [９０]较利用体素的方法占用内存更少,但其效率不如基于深度图像的方法．文献[９１]的特征编码器能够揭示输入点云的空间分布．文献[９２]能够捕捉复杂的手部结构,并精确地回归出手部姿态的低维表示．文献[９３]采用新的nonＧautoregressive结构学习机制来代替transformer的自回归分解,在解码过程中提供必要的姿态信息．表６下半部分给出手部姿态估计算法的核心方法及优势对比分析．

6.3 算法性能对比分析

位姿估计方法中,核心问题是找到旋转矩阵与平移矩阵．文献[８３,８５Ｇ８６]都利用了 RANSAC迭代算法．其中,文献[８３]实现了鲁棒、准确的６自由度姿态估计．文献[８５]是无监督、高精度、６自由度变换不变的网络．文献[８６]在挑战成对配准的真实数据集方面优于现有技术,具有更好的泛化能力且速度更快．文献[８２]的 LORAX能够并行实现,效率较高,适合实时应用．它对随机噪声、密度变化不敏感, 并且其鲁棒性仅在极端水平下才会恶化．文献[８４] 使用较少的训练图像实现了较高的准确性．文献 [８７]提出的 CorsNet回归的是对应关系,而不是直接姿态变化．手部姿态估计方法中,文献[８８]可获得更具代表性的特征．SHPRＧNet可以在不改变网络结构的前提下扩展到多视点的手部姿态估计,这需要将多视点的深度数据融合到点云上．然而,融合后的点云也会受到噪声的影响．文献[８９]可以更好地利用深度图像中的３维空间信息,捕捉３维点云的局部结构, 并且能够集中学习手部点云的有效特征,从而进行精确的３维手部姿态估计．文献[９０]与基于体素化的方法相比,需要更少的内存．但与基于深度图像的方法相比,需要更多的计算时间和内存．文献[９１]使用半监督的方式对网络进行训练,其性能可与全监督的方法相媲美．文献[９２]有效利用深度图中的信息, 以较少的网络参数捕获更多的手部细节及结构,并准确地估计其３维姿态．文献[９３]首次结合结构化手部姿势估计与基于transformer的自然语言处理领域的转换框架．引入参考手部姿势为输出关节提供等效依赖关系．文献[８９]的模型大小为１７．２MB．其中１１．１MB用于点对点回归网络,它是分层PointNet; ６．１MB用于附加的回归模块,它由３个全连层组成．文献[９０]有２种版本,回归版本为３８MB,检测版本为４４MB．文献[９１]中,手部特征编码器(handfeature encoder,HFE)、手部特征解码器(handfeaturedecoder, HFD)和手部特征估计器 (handposeestimator, HPE)的大小分别为８．１MB,７４MB,８．５MB．由于只在测试阶段使用 HFE 和 HPE,所以其网络模型大小为１６．６MB．文献[９２]的模型大小为１０．３MB,其中回归网络为９．２MB,指尖精细网络为１．１MB．不同方法在３个数据集上的性能对比分析如图１所示:

７总结

本文总结了近年来多种点云处理任务的方法, 特别侧重于基于深度学习的工作,为读者提供了最新的研究进展．大多数关于点云的综述类文章都集中于讨论点云分类分割处理任务．如文献[９４Ｇ９５]只讨论了语义分割任务;文献[９６Ｇ９７]增加了目标检测和分类任务的研究分析．其中,文献[９７]只用１节内容简要介绍分类、分割及目标检测三大任务,更关注于处理点云数据的深度学习方法,而不依据处理任务对其进行划分讨论．本文则考虑多种点云处理任务,包括模型重建与变换、分类分割、检测跟踪与姿态估计等．在模型分割分类中,由于大部分算法有用于实现点云分类与分割的功能,不同于文献[９６Ｇ９７]将分类与分割作为２种类别分开讨论,本文将它们统一考虑,并根据基于体素、基于视图与基于点三大主流方法对其划分并展开讨论,明确给出各算法可处理的任务．目前,已经有大量学者对点云处理任务进行研究并依据任务的不同提出多种方法,但这些方法或多或少都有一定的局限性．本文基于这些算法的不足总结点云处理任务所面临的挑战与发展趋势．

１) 数据方面

大部分方法只在现有的数据集上进行实验,而对于新获取的数据并不适用．这很大程度上是由于新获取的数据无法实现多角度、全方位的完美匹配, 而且不同平台获得的数据难以融合,无法达到统一的标准．对于融合后的点云,具有鲁棒性和区分性特征的提取有一定的难度,未来的研究可以从特征提取方面入手．数据集尺度不均衡是由于真实复杂场景中检测及识别小目标较为困难．未来研究工作可人工生成小目标样本,增大数据集中小目标所占比例,进而在网络训练中提高其识别检测能力．数据质量对网络(如transformers)的泛化性和鲁棒性的影响较大[２]．点云的几何位置存在误差时, 可以通过已知控制点对其进行几何矫正．当使用激光扫描获取数据时,除了考虑扫描距离和入射角度的问题,还可以进行强度矫正,通过不同方法改善点云的质量．随着３维扫描技术的发展,大规模点云的获取已不是难点,挑战性在于如何对其进行处理．此外, 算法精度依赖大批量的数据集[９８],目前还没有比较好的解决手段．

２) 性质方面

点云是３维空间内点的集合,它没有提供邻域信息,故而大部分方法需要依据不同的邻域查询方法确定点的邻域,这将导致算法增加额外的计算成本．点云不能显式地表达目标结构以及空间拓扑关系．此外,当目标被遮挡或重叠时,不能依据几何关系确定拓扑结构,给后续处理任务带来一定难度．针对点云的不规则性及无序性,将其应用于深度神经网络中进行相关任务的处理需要做数据形式的转换,如体素化[４０]．但这些转换操作不但增加了计算量,而且很可能在转换的过程中丢失信息,所以直接的点云处理方法是重要的研究方向．

３)网络结构方面

① 基于快速和轻量级的模型．为了达到理想效果,目前的算法倾向于使用含大量参数的较大的神经网络结构,导致计算复杂度高、内存占用大、速度慢等问题．因此,设计快速且轻量级的网络架构具有较大的应用价值[９９Ｇ１００]． ② 网络结构的改良．优化网络结构可使同一网络处理多种任务,能够很大程度地降低复杂度[２]．还可以考虑与其他网络结构结合[４５]来实现优化目的．

４) 应用方面

室外场景信息较多、结构复杂,所以目前大多数方法着重于相对简单的室内场景的分析．然而自动驾驶[１２]等技术的研究无法在室内场景中完成,所以未来的研究方向可侧重于构建适用于室外场景的网络模型．现有分割方法大都用于单个物体的部件分割[１] 或场景中同类对象的语义分割[２５]．而真实场景中目标类别众多、结构复杂,对同类对象的不同个体分割是３维形态检测(文物、古建监测)的重要手段．现有的大多数算法主要利用静态场景中获取的数据,在地震检测等实际应用中,设计能够应对变化场景的算法具有重要应用价值．利用时序上下文信息可作为其研究方向[９９]．计算机视觉中的有效性通常与效率相关,它决定模型是否可用于实际应用中[１００],因此在二者之间实现更好的平衡是未来研究中有意义的课题．

专知便捷查看