深度学习在2维图像等结构化数据处理中表现出了优越性能,对非结构化的点云数据分析处理 的潜力已经成为计算机图形学的重要研究方向,并在机器人、自动驾驶、虚拟及增强现实等领域取得一 定进展.通过回顾近年来3维点云处理任务的主要研究问题,围绕深度学习在3维点云形状分析、结构提取、检测和修复等方向的应用,总结整理了典型算法.介绍了点云拓扑结构的提取方法,然后对比分析 了变换、分类分割、检测跟踪、姿态估计等方向的以构建神经网络为主要研究方法的进展.最后,总结常 用的3维点云公开数据集,分析对比了各类方法的特点与评价指标,指出其优势与不足,并从不同角度 对基于深度学习的方法处理点云数据所面临的挑战与发展方向进行了讨论.
随着3维传感器的迅速发展,3维数据变得无 处不在,利用深度学习方法对这类数据进行语义理 解和分析变得越来越重要. 不同3维数据(体素、网格等)表示下,深度学习 的方法不尽相同,但这些方法应用于点云中都有一 定的局限性,具体表现为:体素化方法会受到分辨率 的限制;转换为2维图像的方法在形状分类和检索 任务上取得了优越性能,但将其扩展到场景理解或 其他3维任务(如姿态估计)有一定的困难;光谱卷 积神经网络限制在流形网格;基于特征的深度神经 网络会受到所提取特征表示能力的限制[1].
点云本身具有的无序性与不规则性为利用深度 学习方法直接处理该类数据带来一定挑战性:1)规 模局限性.现有研究方法一般针对小规模点云,而能 处理大型点云的方法也需要切割处理,即将其分为 小块后再处理.但切割可能会造成点云整体信息的 丢失.2)遮挡.当被扫描对象被遮挡时,将直接导致 信息的丢失,这为后续任务的处理带来严重影响.3) 噪声.由于点云数据本身就是3维空间内的点集,噪 声的存在直接影响点云模型的正确表示,在形状识 别等任务中会造成精度的降低.4)旋转不变.对于同 一模型,旋转不同角度仍表示同一对象,网络识别结 果不应由于角度不同而产生差异. 随着近年来激光雷达等传感设备及相关技术的 发展,3维点云的扫描与获取更为便捷,其处理技术 在机器人、自动驾驶及其他领域的实际应用中已取 得一定进展.基于深度学习的蓬勃发展,研究者提出 了许多方法来解决相关领域的不同问题.
**本文对基 于深度学习的点云处理任务进行详细阐述. 本文的主要贡献有4个方面: **
1) 从机器人、自动驾驶、虚拟和增强现实以及 医学4个领域介绍点云处理技术的应用情况; 2) 探讨点云拓扑结构与形状分析在应用于点 云处理任务中的必要性,并总结对比多种算法; 3) 归纳基于点云数据处理相关任务的方法,主 要包括模型重建与变换、分类分割、检测跟踪与姿态 估计,着重讨论基于深度学习的方法,并给出各种方 法的优劣比较; 4) 总结多个公开点云数据集,并分析各数据集 中不同方法能处理的不同任务.
1 基本概念及应用情况
1.1 深度学习
机器学习推动现代科技手段的进步.网络的内 容过滤及推荐、语音文本的转换及医学影像分析等 应用程序越来越多地使用深度学习技术.
1) 基础概念
深度学习善于发现高维数据中的复杂结构,因 此可应用于科学、商业和医学等诸多领域. 深度学习利用多处理层组成的计算模型学习具 有抽象层次的数据表示,关键在于其目标特征不是 人类指定的,而是从大量数据中学习获取的,深度神 经网络已经成为人工智能的基础.多层感知机或全 连接网络堆叠线性层和非线性激活层,是神经网络 的经典类型.卷积网络引入卷积层和池化层,在处理 图像、视频和音频方面取得了突破性进展.递归网络 可有效处理文本语音等具有连续性的数据.TransG former利用selfGattention机制提取特征,最早用于 处理自然语言[2G3].
2) 框架平台
为了实现更复杂的模型,若从头开始编写代码, 效率非常低,因此深度学习框架应运而生.本节介绍 常用的深度学习框架,并将其汇总于表1中. 目前常用于点云处理的框架更多为 TensorFlow 与 PyTorch,其他框架如 Caffe与Jittor等也可用于 处理点云,但应用较少.
1.2 点云处理任务
3维几何模型中,点云已经成为主要表达方式 之一,其应用于深度学习中的处理技术已取得一定成果.在不同任务驱动下,本文以构建神经网络为主 要方法,通过分类与整理相关文献,将点云处理任务 分为模型重建与变换、分类分割、检测跟踪与姿态估 计几大类.本节总结其基本概念.
模型重建与变换包括形状修复、模型补全与变 形.扫描获取到的数据并不能完美表征原物体的特 性,很可能存在缺漏或误差,造成模型不完整、扭曲, 故而需要对该模型进行处理,使其尽可能贴合原物 体模型或目标模型,处理手段即为重建与变换. 分类分割主要包括分类、部件分割、语义分割与 实例分割.在诸如机器人抓取等需求中,必须明确所 抓取对象的分类,即需要判断其信息,判断即为对场 景中对象语义信息标记与分类. 检测跟踪主要包括3维对象检测、场景流估计 与目标跟踪.在诸如自动驾驶等应用中,需要明确路 径与方向,确定追踪对象,并能依据当前状态自动调 节或人为干预使其后续运动符合预期目标. 姿态估计主要包括位姿估计与手部姿态估计. 前者需要确定对象的位置与方向,如工厂喷漆中,喷 枪需要依据目标不断改变其位置与指向.后者则是 为了理解人类肢体语言,如在体感游戏中,根据肢体 变换执行相应游戏操作.
1.3 应用情况
3维点云处理目前在实际应用中已经取得了一 定的进展.本节以应用为导向,从机器人领域、自动 驾驶领域及虚拟、增强现实领域及医学领域4个角 度介绍点云处理技术的应用情况.
1.3.1 机器人领域
机器人抓取技术的核心在于目标识别和定位. 2019年 Lin等人[4]利用深度神经网络学习物体外 在形状,并训练网络在获取物体局部表面时也能成 功抓取目标. 在机器人 室 内 定 位 及 导 航 技 术 方 面,2020 年 Khanh等人[5]设计了新的云端导航系统.云端导航 下机器人能更准确地移动到目标位置.该技术可应 用于位置服务需求,如盲人导航. 针对喷漆机器人的自动化操作,2019年 Lin等 人[6]利用迭代最近点(iterativeclosestpoint,ICP) 算法进行姿态估计,计算物体部件的位置误差,并重 新调整机器人的方向,以完成所需的喷漆任务.2020 年 Parra等人[7]设计了能够在地板下的空隙中进行 隔热喷涂以提高建筑的强度及使用年限的机器人. 他们针对地形不均匀等情况,提出定位模块.机器人 依据传感器获取连续点云的信息.Yang等人[8]基于 点云模型表示的家具表面路径规划和边缘提取技术 提出边缘喷涂,获取喷涂枪路径点序列和对应姿态. 在家具等工件的生产流程中,该方法能够根据喷涂 系统坐标系与家具姿态的不同,自适应地调整二者 的坐标关系,以实现正确喷涂的目的.
1.3.2 自动驾驶领域
自动驾驶系统的性能受环境感知的影响.车辆 对其环境的感知为系统的自动响应提供了基础.2017 年 Hanke等人[9]提出采用光线追踪的汽车激光雷 达传感器实现实时模型测量方法.使用由真实世界场 景的测量构建的虚拟环境,能够在真实世界和虚拟世 界传感器数据之间建立直接联系.2019年Josyula等 人[10]提出了利用机器人操作系统(robotoperating system,ROS)和点云库(pointcloudlibrary,PCL) 对点云进行分割的方法.它是为自动驾驶车辆和无 人机的避障而开发的,具体涉及障碍物检测与跟踪.激光雷达(lightdetectionandranging,LIDAR) 和视觉感知是高水平(L4GL5)飞行员成功自动避障 的关键因素.为了对大量数据进行点云标记,2020 年 Li等人[11]提出针对3维点云的标注工具,实现 了点云3维包围盒坐标信息到相机与 LIDAR 联合 标定后获得的2维图像包围盒的转换. 基于图的同步定位与建图(simultaneouslocaliG zationandmapping,SLAM)在自动驾驶中应用广 泛.实际驾驶环境中包含大量的运动目标,降低了扫 描匹配性能.2020年 Lee等人[12]利用加权无损检测 (扫描匹配算法)进行图的构造,在动态环境下也具 有鲁棒性.
1.3.3 虚拟、增强现实领域
为了更好地了解室内空间信息,2015年 Tredinnick 等人[13] 创 建 了 能 够 在 沉 浸 式 虚 拟 现 实 (virtual reality,VR)显示系统中以较快的交互速率可视化 大规模 LIDAR 点云的应用程序,能够产生准确的 室内环境渲染效果.2016年 Bonatto等人[14]探讨了 在头戴式显示设备中渲染自然场景的可能性.实时 渲染是使用优化的子采样等技术来降低场景的复杂 度实现的,这些技术为虚拟现实带来了良好的沉浸 感.2018年 Feichter等人[15]提出了在真实室内点云 场景中抽取冗余信息的算法.其核心思想是从点云 中识别出平面线段,并通过对边界进行三角剖分来 获取内点,从而描述形状. 生成可用于训练新模型的标注已成为机器学习 中独立的研究领域,它的目标是高效和高精度.标注 3维点云的方法包括可视化,但这种方法是十分耗 时的.2019年 Wirth等人[16]提出了新的虚拟现实标 注技术,它大大加快了数据标注的过程. LTDAR为增强现实(augmentedreality,AR) 提供了基本的3维信息支持.2020年 Liu等人[17]提 出学习图像和 LIDAR 点云的局部特征表示,并进 行匹配以建立2维与3维空间的关系. 使用手势自然用户界面(naturaluserinterface, NUI)对于头戴式显示器和增强及虚拟现实等可穿 戴设备中虚拟对象的交互至关重要.然而,它在 GPU 上的实现存在高延迟,会造成不自然的响应.2020年Im 等人[18]提出基于点云的神经网络处理器.该 处理器采用异构内核结构以加速卷积层和采样层, 实现了使用 NUI所必需的低延迟.
1.3.4 医学领域
医学原位可视化能够显示患者特定位置的成像 数据,其目的是将特定病人的数据与3维模型相结 合,如将手术模拟过程直接投影到患者的身体上,从 而在实际位置显示解剖结构.2011年Placitelli等人[19] 采用 采 样 一 致 性 初 始 配 准 算 法 (sampleconsensus initialalignment,SACGIA),通过快速配准三元组 计算相应的匹配变换,实现点云快速配准. 模拟医学图像如 X 射线是物理学和放射学的 重要研究领域.2020年 Haiderbhai等人[20]提出 基 于 条 件 生 成 式 对 抗 网 络 (conditionalgenerative adversarialnetwork,CGAN)的点云 X射线图像估 计法.通过训练 CGAN 结构并利用合成数据生成器 中创建的数据集,可将点云转换成 X射线图像.
2 模型形状结构
了解并确定高层形状结构及其关系能够使得模 型感知局部和全局的结构,并能通过部件之间的排 列和关系描绘形状,这是研究形状结构分析的核心 课题.随着真实世界的扫描和信息的挖掘,以及设计 模型规模的增大,在大量信息中进行3维几何模型 的识别和分析变得越来越重要。
3 模型重建与变换
由于遮挡等多种因素的限制,利用激光雷达等 点云获取设备得到的数据存在几何信息和语义信息的丢失以及拓扑结构的不确定,这直接导致了数据 的质量问题.为后续任务的处理带来极大挑战.
4 形状分类与分割
基于检索或划分的目的,对具有相似特征或相 同属性的点云数据进行区域的分割或属性的分类是 极其重要的.
5 目标检测与跟踪
自动驾驶、机器人设计等领域中,3维目标检测 与跟踪至关重要.自动驾驶车辆和无人机的避障等 实际应用中,涉及障碍物检测与跟踪.
5.1 3维目标跟踪
目标跟踪是推测帧的属性并预测变化,即推断 对象的运动情况,可以利用预测对象的运动信息进 行干预使之实际运动符合预期目标或用户要求. 为了从点云中推断出目标对象的可移动部件以 及移动信息,2019年 Yan等人[67]提出 RPMGNet.其 特定的体系结构够预测对象多个运动部件在后续帧 中的运动,同时自主决定运动何时停止. 2020年 Wang等人[68]提出 PointTrackNet.网 络中提出了新的数据关联模块,用于合并2帧的点 特征,并关联同一对象的相应特征.首次使用 3 维 Siamese跟踪器并应用于点云的是 Giancola等人[69]. 基于 Achlioptas等人[70]提出的形状完成网络,2019 年 Giancola等人[69]通过使用给定对象的语义几何 信息丰富重编码后的表示来提高跟踪性能. 2019年Burnett等人[71]提出aUToTrack,使用 贪婪算法进行数据关联和扩展卡尔曼滤波(extended Kalmanfilter,EKF)跟踪目标的位置和速度.Simon 等人[72]融合2维语义信息及 LIDAR 数据,还引入 了缩放旋转平移分数(scaleGrotationGtranslationscore, SRTs),该方法可更好地利用时间信息并提高多目 标跟踪的精度. 文献[67]可以从开始帧和结束帧的移动部分导 出变化范围,故参数中不含变换范围,减少了参数个 数.文献[68]提供的跟踪关联信息有助于减少目标 短期消失的影响,其性能比较稳定,但是当汽车被严 重遮挡时,结果会出现问题.文献[69]解决了相似性 度量、模型更新以及遮挡处理3方面的问题,但该方 法直接利用对称性来完善汽车整体形状会导致更多 噪声.文献[71]实际需要计算被检测物体的质心,这 种方法能有效检测行人,但对于汽车来说,其结果并 不准确.文献[72]提出的 SRTs可用于快速检测目 标,提高了准确性和鲁棒性.
5.2 3维场景流估计
机器人和人机交互中的应用可以从了解动态环 境中点的3维运动,即场景流中受益.以往对场景流 的研究方法主要集中于立体图像和 RGBGD 图像作 为输入,很少有人尝试从点云中直接估计. 2019年 Behl等人[73]提出 PointFlowNet,网络 联合预测3维场景流以及物体的3维包围盒和刚体 运动.Gu等人[74]提出 HPLFlowNet,可以有效地处 理非结构化数据,也可以从点云中恢复结构化信息. 能在不牺牲性能的前提下节省计算成本.Liu等人[75] 提出 FlowNet3D.由于每个点都不是“独立”的,相邻点会形成有意义的信息,故而 FlowNet3D 网络嵌入 层会学习点的几何相似性和空间关系. 文献[73]先检测出object并计算出egomotion 和sceneflow,再去回归各个object的 motion,它从 非结构化点云中直接估计3维场景流.文献[74G75] 的整体结构类似,都是下采样 融合 上采样,直接拟 合出sceneflow.
5.3 3维目标检测与识别
在城市环境中部署自动型车辆是一项艰巨的技 术挑战,需要实时检测移动物体,如车辆和行人.为 了在大规模点云中实现实时检测,研究者针对不同 需求提出多种方法. 2019年 Shi等人[76]提出 PointRCNN,将场景 中的点云基于包围盒生成真实分割掩模,分割前景 点的同时生成少量高质量的包围盒预选结果.在标 准坐标中优化预选结果来获得最终检测结果. 2019年 Lang等人[77]提出编码器 PointPillars. 它学 习 在 pillars 中 组 织 的 点 云 表 示,通 过 操 作 pillar,无需手动调整垂直方向的组合.由于所有的 关键操作都可以表示为2维卷积,所以仅使用2维 卷积就能实现端到端的3维点云学习. 考虑到模型的通用性,2019年 Yang等人[78]提 出STD,利用球形锚生成精确的预测,保留足够的 上下文信息.PointPool生成的规范化坐标使模型在 几何变化下具有鲁棒性.box预测网络模块消除定 位精度与分类得分之间的差异,有效提高性能. 2019年 Liu等人[79]提出大规模场景描述网络 (largeGscaleplacedescriptionnetwork,LPDGNet). 该网络采用自适应局部特征提取方法得到点云的局 部特征.此外,特征空间和笛卡儿空间的融合能够进 一步揭示局部特征的空间分布,归纳学习整个点云 的结构信息. 为了克服一般网络中点云规模较小的局限性, 2019年Paigwar等人[80]提出 AttentionalPointNet. 利用 Attentional机制进行检测能够在大规模且杂 乱无章的环境下重点关注感兴趣的对象. 2020年 Shi等人[81]提出 PVGRCNN.它执行 2 步策略:第1步采用体素 CNN 进行体素特征学习 和精确的位置生成,以节省后续计算并对具有代表 性的场景特征进行编码;第2步提取特征,聚集特征 可以联合用于后续的置信度预测和进一步细化. 文献[76]生成的预选结果数量少且质量高.文 献[77]能够利用点云的全部信息,其计算速度较快. 文献[78]能够将点特征从稀疏表示转换为紧凑表 示,且用时较短.文献[79]充分考虑点云的局部结 构,自适应地将局部特征作为输入,在不同天气条件 下仍能体现出健壮性.文献[80]不必处理全部点云, 但预处理步骤使得计算成本较大.文献[81]结合基 于体素的与基于 PointNet的优势,能够学习更具鉴 别力的点云特征.
5.4 算法性能对比分析
跟踪算法中,文献[67]主要关注的是物体部件 的跟踪,文献[68]与文献[69]则主要检测同一物体 在不同时间的状态.文献[67]的优势在于可以同时 预测多个运动部件及其各自的运动信息,进而产生 基于运动的分割.该方法实现高精度的前提是输入 对象的几何结构明确,否则很有可能会生成不完美 的运动序列.文献[68]在快速变化的情况下,如突然 刹车或转弯,其结果仍可靠.但是当目标被严重遮挡 时,其结果并不可靠.由于大多数模型(如汽车模型) 只能从单侧看到,文献[69]利用对称性完善汽车形 状的方法未必是有效的.文献[71]的处理方法较简 单且用时较短,在 CPU 上运行时间不超过75ms.它 能在检测行人时达到较高性能.但用于拥挤道路的 自动驾驶时,其采用的质心估计对于汽车并不准确. 文献[72]同时利用2维信息与3维 LIDAR 数据, 且使用的SRTs指标可缩短训练时间. 场景流估计算法中,文献[73]联合3维场景流 和刚性运动进行预测,其效率较高且处理不同运动 时具有鲁棒性.文献[74]与文献[75]都以端到端的 方式从点云中学习场景流.前者从非结构化的点云 中恢复结构化,在生成的网格上进行计算,后者则是 在点云的连续帧中计算. 检测算法中,文献[76]不会在量化过程中丢失 信息,也不需要依赖2维检测来估计3维包围盒,故 而可以充分利用3维信息.文献[77]的处理速度较 快,计算效率较高.文献[78]具有较高的计算效率和 较少的计算量,能够同时集成基于点和基于体素的 优点.文献[79]引入局部特征作为网络输入,有助于 充分了解输入点云的局部结构.文献[80]能够有效 地获取数据的3维几何信息.但是,将点云裁剪成较 小区域等预处理步骤增加了计算成本.文献[81]结 合了基于体素与基于 PointNet的优点,不仅保留了 精确的位置,而且编码了丰富的场景上下文信息.
表4给出 KITTI数据集下不同算法处理跟踪 任务的性能对比.指标为多目标跟踪准确度(multiG objecttrackingaccurancy,MOTA)、多 目 标 跟 踪 精确度(multiGobjecttrackingprecision,MOTP)、 目标大部分被跟踪到的轨迹占比(mostlytracked,MT)、目 标 大 部 分 跟 丢 的 轨 迹 占 比 (mostlylost, ML)、ID改变总数量(IDswitches,IDS)、跟踪过程 中被打断的次数(fragmentation,FRAG)及每秒帧 数(framespersecond,FPS).
表 5 给出在 KITTI数据集下 3 维检测框(3G dimensionaldetectionbenchmark,3D)、BEV 视图下 检测框(birdeyeviewdetectionbenchmark,BEV) 与检测目标旋转角度(averageorientationsimilarity detectionbenchmark,AOS)的检测结果.其中,评估指 标为AP,IoU 阈值为:汽车0.7,行人和自行车0.5.
6 姿态估计
3维姿态估计即确定目标物体的方位指向问题, 在机器人、动作跟踪和相机定标等领域都有应用.
6.1 位姿估计
解决3维可视化问题的中间步骤一般是确定 3维局部特征,位姿估计是其中最突出的问题. 2017年 Elbaz等人[82]提出的 LORAX 采用了 可以处理不同大小点云的设置,并设计了对大规模 扫描数据有效的算法.2019年 Speciale等人[83]将原 始3维点提升到随机方向的3维线上,仅存储3维 线和3维 点 的 关 联 特 征 描 述 符,这 类 映 射 被 称 为 3维线云.2019年 Zhang等人[84]从目标点云中自动 提取关键点,生成对刚性变换不变的逐点特征,利用 层次式神经网络预测参考姿态对应的关键点坐标. 最后计算出当前姿态与参考姿态之间的相对变换. 2018年 Deng等人[85]提出了 PPFGFoldNet,通 过点对特征(pointpairfeature,PPF)对局部3维几 何编码,建立了理论上的旋转不变性,同时兼顾点的 稀疏性和置换不变性,能很好地处理密度变化. 考虑到成对配准描述符也应该为局部旋转的计 算提供线索,2019年 Deng等人[86]提出端到端的配 准方法.这种算法在 PPFGFoldNet [85]的工作基础上, 通过学习位姿变换将3维结构与6自由度运动解耦.该方法基于数据驱动来解决2点云配准问题. 2020年 Kurobe等人[87]提出 CorsNet,连接局 部特征与全局特征,不直接聚集特征,而是回归点云 之间的对应关系,比传统方法集成更多信息. 文献[82]解决了2点云之间点数相差数倍的问 题,它简单、快速,并且具备扩展性,但在极端情况 下,其结果会出错.文献[83]只使用了一个几何约 束,其准确性与召回率可以与传统方法媲美,但这种 方法的速度较慢.文献[84]需要较少的训练数据,因 此对于没有纹理的对象,它更快、更精确.文献[85] 继承了多个网络框架的优点,且充分利用点云稀疏 性,能够快速提取描述符.文献[86]提高了成对配准 的技术水平且减少了运行时间.文献[87]结合了局 部与全局特征,从平移和旋转的角度而言准确性较 高.表6上半部分给出位姿估计算法的核心方法及 优势对比分析.
6.2 手部姿态估计
点云作为更简单有效的数据表示方法,其输入 的点集和输出的手部姿态共享相同表示域,有利于 学习如何将输入数据映射到输出姿态上. 为了直接从点云中估计手部姿态,同样以手部 3维点云为输入,2018年 Chen等人[88]提出语义手 部姿 态 回 归 网 络 (semantichandposeregression network,SHPRGNet),通过学习输入数据的变换矩 阵和输出姿态的逆矩阵应对几何变换的挑战.Ge等 人[89]提出的方法输出反映手部关节的每点贴近度 和方向的 heatGmaps和单位向量场,并利用加权融 合从估计的heatGmaps和单位向量场中推断出手部 关节位置.2019年 Li等人[90]提出的方法以置换等 变层(permutationequivariantlayer,PEL)为基本 单元,构建了基于 PEL 的残差网络模型.且手部姿 态是利用点对姿势的投票方案来获得的,这避免了 使用最大池化层提取特征而导致的信息丢失. 现有的手部姿态估计方法大多依赖于训练集, 而在训练数据上标注手部3维姿态费时费力.2019 年 Chen等人[91]提出的 SOGHandNet旨在利用未 注记数据以半监督的方式获得精确的3维手部姿态 估计.通过自组织映射(selfGorganizingmap,SOM) 模拟点的空间分布,然后对单个点和 SOM 节点进 行层次化特征提取,最终生成输入点云的判别特征. 2018年 Ge等人[92]提出 HandPointNet,提出 的精细化网络可以进一步挖掘原始点云中更精细的 细节,能够回归出更精确的指尖位置.Huang等人[93] 认为学习算法不仅要研究数据的内在相关性,而且 要充分利用手部关节之间的结构相关性及其与输入 数据的相关性.基于此,2020年他们提出非自回归手 部transformer(nonGautoregressivehandtransformer, NARHT),以关节特征的形式提供参考手部姿态, 利用其固有的相关性来逼近输出姿态. 文献[88]对点云的几何变换具有鲁棒性.文献 [89]能够很好地捕捉空间中点云的结构信息.文献 [90]较利用体素的方法占用内存更少,但其效率不 如基于深度图像的方法.文献[91]的特征编码器能 够揭示输入点云的空间分布.文献[92]能够捕捉复 杂的手部结构,并精确地回归出手部姿态的低维表 示.文献[93]采用新的nonGautoregressive结构学习机制来代替transformer的自回归分解,在解码过 程中提供必要的姿态信息.表6下半部分给出手部 姿态估计算法的核心方法及优势对比分析.
**6.3 算法性能对比分析 **
位姿估计方法中,核心问题是找到旋转矩阵与 平移矩阵.文献[83,85G86]都利用了 RANSAC迭代 算法.其中,文献[83]实现了鲁棒、准确的6自由度 姿态估计.文献[85]是无监督、高精度、6自由度变 换不变的网络.文献[86]在挑战成对配准的真实数 据集方面优于现有技术,具有更好的泛化能力且速 度更快.文献[82]的 LORAX能够并行实现,效率较 高,适合实时应用.它对随机噪声、密度变化不敏感, 并且其鲁棒性仅在极端水平下才会恶化.文献[84] 使用较少 的 训 练 图 像 实 现 了 较 高 的 准 确 性.文 献 [87]提出的 CorsNet回归的是对应关系,而不是直 接姿态变化. 手部姿态估计方法中,文献[88]可获得更具代 表性的特征.SHPRGNet可以在不改变网络结构的前 提下扩展到多视点的手部姿态估计,这需要将多视 点的深度数据融合到点云上.然而,融合后的点云也 会受到噪声的影响.文献[89]可以更好地利用深度 图像中的3维空间信息,捕捉3维点云的局部结构, 并且能够集中学习手部点云的有效特征,从而进行 精确的3维手部姿态估计.文献[90]与基于体素化的 方法相比,需要更少的内存.但与基于深度图像的方 法相比,需要更多的计算时间和内存.文献[91]使用 半监督的方式对网络进行训练,其性能可与全监督 的方法相媲美.文献[92]有效利用深度图中的信息, 以较少的网络参数捕获更多的手部细节及结构,并 准确地估计其3维姿态.文献[93]首次结合结构化 手部姿势估计与基于transformer的自然语言处理 领域的转换框架.引入参考手部姿势为输出关节提 供等效依赖关系.文献[89]的模型大小为17.2MB.其 中11.1MB用于点对点回归网络,它是分层PointNet; 6.1MB用于附加的回归模块,它由3个全连层组成. 文献[90]有2种版本,回归版本为38MB,检测版本 为44MB.文献[91]中,手部特征编码器(handfeature encoder,HFE)、手部特征解码器(handfeaturedecoder, HFD)和 手 部 特 征 估 计 器 (handposeestimator, HPE)的大小分别为8.1MB,74MB,8.5MB.由于只 在测试阶段使用 HFE 和 HPE,所以其网络模型大 小为16.6MB.文献[92]的模型大小为10.3MB,其 中回归网络为9.2MB,指尖精细网络为1.1MB.不 同方法在3个数据集上的性能对比分析如图1所示:
7 总 结
本文总结了近年来多种点云处理任务的方法, 特别侧重于基于深度学习的工作,为读者提供了最 新的研究进展. 大多数关于点云的综述类文章都集中于讨论点 云分类分割处理任务.如文献[94G95]只讨论了语义 分割任务;文献[96G97]增加了目标检测和分类任务 的研究分析.其中,文献[97]只用1节内容简要介绍 分类、分割及目标检测三大任务,更关注于处理点云数据的深度学习方法,而不依据处理任务对其进行 划分讨论.本文则考虑多种点云处理任务,包括模型 重建与变换、分类分割、检测跟踪与姿态估计等.在 模型分割分类中,由于大部分算法有用于实现点云 分类与分割的功能,不同于文献[96G97]将分类与分 割作为2种类别分开讨论,本文将它们统一考虑,并 根据基于体素、基于视图与基于点三大主流方法对 其划分并展开讨论,明确给出各算法可处理的任务. 目前,已经有大量学者对点云处理任务进行研 究并依据任务的不同提出多种方法,但这些方法或 多或少都有一定的局限性.本文基于这些算法的不 足总结点云处理任务所面临的挑战与发展趋势.
1) 数据方面
大部分方法只在现有的数据集上进行实验,而 对于新获取的数据并不适用.这很大程度上是由于 新获取的数据无法实现多角度、全方位的完美匹配, 而且不同平台获得的数据难以融合,无法达到统一 的标准.对于融合后的点云,具有鲁棒性和区分性特 征的提取有一定的难度,未来的研究可以从特征提 取方面入手. 数据集尺度不均衡是由于真实复杂场景中检测 及识别小目标较为困难.未来研究工作可人工生成 小目标样本,增大数据集中小目标所占比例,进而在 网络训练中提高其识别检测能力. 数据质量对网络(如transformers)的泛化性和 鲁棒性的影响较大[2].点云的几何位置存在误差时, 可以通过已知控制点对其进行几何矫正.当使用激 光扫描获取数据时,除了考虑扫描距离和入射角度 的问题,还可以进行强度矫正,通过不同方法改善点 云的质量. 随着3维扫描技术的发展,大规模点云的获取 已不是难点,挑战性在于如何对其进行处理.此外, 算法精度依赖大批量的数据集[98],目前还没有比较 好的解决手段.
2) 性质方面
点云是3维空间内点的集合,它没有提供邻域 信息,故而大部分方法需要依据不同的邻域查询方 法确定点的邻域,这将导致算法增加额外的计算成 本.点云不能显式地表达目标结构以及空间拓扑关 系.此外,当目标被遮挡或重叠时,不能依据几何关 系确定拓扑结构,给后续处理任务带来一定难度. 针对点云的不规则性及无序性,将其应用于深 度神经网络中进行相关任务的处理需要做数据形式 的转换,如体素化[40].但这些转换操作不但增加了 计算量,而且很可能在转换的过程中丢失信息,所以 直接的点云处理方法是重要的研究方向.
3)网络结构方面
① 基于快速和轻量级的模型.为了达到理想效 果,目前的算法倾向于使用含大量参数的较大的神 经网络结构,导致计算复杂度高、内存占用大、速度 慢等问题.因此,设计快速且轻量级的网络架构具有 较大的应用价值[99G100]. ② 网络结构的改良.优化网络结构可使同一网 络处理多种任务,能够很大程度地降低复杂度[2].还 可以考虑与其他网络结构结合[45]来实现优化目的.
4) 应用方面
室外场景信息较多、结构复杂,所以目前大多数 方法着重于相对简单的室内场景的分析.然而自动 驾驶[12]等技术的研究无法在室内场景中完成,所以 未来的研究方向可侧重于构建适用于室外场景的网 络模型. 现有分割方法大都用于单个物体的部件分割[1] 或场景中同类对象的语义分割[25].而真实场景中目 标类别众多、结构复杂,对同类对象的不同个体分割 是3维形态检测(文物、古建监测)的重要手段. 现有的大多数算法主要利用静态场景中获取的 数据,在地震检测等实际应用中,设计能够应对变化 场景的算法具有重要应用价值.利用时序上下文信 息可作为其研究方向[99]. 计算机视觉中的有效性通常与效率相关,它决 定模型是否可用于实际应用中[100],因此在二者之 间实现更好的平衡是未来研究中有意义的课题.