复旦等最新《预训练3D点云的自监督学习》综述

点云数据由于其紧凑的形式和在表示复杂3D结构方面的灵活性而得到了广泛的研究。点云数据准确捕捉和表示复杂3D几何形状的能力使其成为计算机视觉、机器人技术和自动驾驶等广泛应用的理想选择，这些应用都需要了解底层空间结构。鉴于标注大规模点云数据的挑战，近年来自监督点云表示学习越来越受到关注。这种方法旨在从未标记的数据中学习通用且有用的点云表示，从而避免了大量的手动标注。在本文中，我们对使用DNNs的自监督点云表示学习进行了全面调查。我们首先介绍研究动机和近期研究的一般趋势。然后简要介绍常用的数据集和评估指标。在此基础上，我们深入探讨了基于这些技术的自监督点云表示学习方法。最后，我们分享了一些关于自监督学习在预训练3D点云方面可能面临的挑战和潜在问题的想法。

1. 引言

三维点云是一种紧凑而灵活的表示形式，提供了丰富的几何、形状和尺度信息。随着3D采集技术的快速进步，用于捕获点云的3D传感器已经变得越来越容易获得，包括各种类型的3D扫描仪，激光雷达和RGB-D相机[1]，[2]。当与图像结合时，这些3D点云数据可以帮助机器感知周围环境，从而被广泛应用于计算机视觉、机器人、自动驾驶、遥感和医疗[3]等与场景理解相关的应用中。

随着深度神经网络(DNN)的不断发展，点云理解得到了越来越多的关注，导致了近年来许多深度架构和模型的发展。然而，深度网络的有效训练通常需要大规模的、人工标注的训练数据，例如用于目标检测的3D边界框和用于语义分割的逐点标注。由于遮挡、形状变化以及人类感知和点云显示之间的视觉不一致等因素，收集这些注释可能是费时费力的。因此，大规模标注点云的高效收集已成为深度神经网络有效设计、评估和部署的瓶颈。

为了规避耗时且昂贵的数据标记过程，许多自监督方法被提出，以从大规模无标记点云中学习视觉特征，而不依赖任何人工生成的标签。一种流行的方法涉及设计各种前置任务让网络来解决。通过优化前置任务的目标函数来训练网络，并在此过程中学习特征。各种前置任务已被提出用于自监督学习，包括点云重建、对比学习和多模态学习等。前置任务具有两个共性:(1)深度神经网络在求解前置任务时必须捕获点云的视觉特征;(2)通过利用数据本身的结构，从数据本身(自监督)中产生监督信号。为促进方法学的进步并进行全面的比较，本文回顾了3D预训练的自监督学习(SSL)方法，并为比较和预测技术提供了一个统一的视角。对该问题的综合方法突出了现有方法的差异和相似性，可能鼓舞人心的新解决方案。我们将本次调查的贡献总结如下:

统一的框架和系统的分类。本文提出了一个统一的框架，基于该框架，将现有的工作分为两大类:对象和室内层，以及室外层。构建了下游任务和SSL学习方案的分类，以提供对这一领域的全面理解。 全面和最新的综述。本文对经典和前沿的3D预训练SSL方法进行了全面和及时的调查。对于每种类型的方法，都提供了细粒度的分类、深入的比较和总结。据我们所知，本文对SSL进行了首次回顾，特别关注预训练的3D点云数据。 展望未来方向。本文强调了当前研究的技术局限性，并为未来的工作提出了几个有希望的途径，从各种角度提供了见解，以激励该领域的进一步发展。

本综述的结构如下:第2节介绍了预训练点云的自监督学习的背景知识、常用的数据集及其特点。第3节系统地回顾了在物体和室内场景级别预训练点云的SSL方法，而第4节比较和总结了室外场景级别数据的方法。最后，第5节确定了自监督点云预训练的几个有希望的未来方向。

2 物体和室内场景级别的自监督学习（SSL）

物体级别的自监督学习（SSL）方法主要关注使用单个3D物体（如椅子、桌子、汽车等）预训练模型，这些物体通常与语义标签关联，以提供有关其身份的上下文信息。这种类型的数据通常用于物体识别、检测和分割等任务，旨在识别和定位更大场景中的单个物体。另一方面，室内场景级别的SSL方法专注于使用整个3D室内环境预训练模型，这些环境通常包含多个物体及其空间布局。室内场景级别的数据通常与物体和建筑元素的语义标签关联，例如“墙”、“门”、“窗户”和“地板”，或者根据功能标签进行分类，例如“厨房”、“卧室”、“客厅”或“办公室”。与物体级别的SSL方法相比，室内场景级别的SSL方法通常需要将输入数据预先分割成语义区域或物体，以提供关于场景的上下文信息。

**2.1 基于重建的自监督学习 **基于重建的自监督学习方法采用重建任务，使网络能够学习更好的3D点云表示（见图3）。根据预设任务的性质，它们可以大致分为两个主要子类别：基于掩码的和基于损坏的。还有一些方法不属于这两组，它们被归类为“其他”方法。

2.2 基于对比学习的自监督学习

对比学习是一种流行的自监督学习方法。它通过辅助任务构建正样本和负样本，并训练模型使正样本对在嵌入空间中靠近，同时将正样本与负样本分开。与生成方法相比，对比学习不依赖于特定样本的细节，而是依赖于在嵌入空间中区分正样本和负样本。这一特性使得模型更容易优化和更具泛化性。

3.3 基于空间的自监督学习

基于空间的自监督学习方法利用点云中固有的丰富几何信息来开发预设任务。图5展示了一些典型的几何变换，如裁剪、剪裁、抖动、随机丢弃、下采样和归一化。通过采用这些空间退化点云的恢复过程，可以有效地预训练模型，利用数据中丰富的空间上下文。

2.4 基于时间的自监督学习

基于时间的自监督学习方法强调利用序列中或人工生成的变换中固有的时间信息。点云序列由连续的点云帧组成，类似于视频数据。例如，从RGB-D视频帧转换的室内点云序列和由连续点云扫描组成的激光雷达序列数据。这些点云序列包含丰富的时间信息，可以通过为自监督学习设计预设任务并利用提取的数据作为监督信号来训练网络。所学习的表示可以有效地转移到各种下游任务。

2.5 多模态自监督学习

多模态学习旨在利用不同模态之间的相关性，如图像、文本和点云（图7）。这些方法的优点包括能够利用来自多个来源的互补信息，对任何一种模态中缺失或嘈杂数据的鲁棒性，以及对新环境的改善泛化能力。

3 室外场景级别的自监督学习

室内级别和室外级别自监督学习之间的主要区别源于点云数据的复杂性和稀疏性。室内级别的自监督学习关注具有相对较少变化和较高点云密度的环境，如房间、建筑物或其他封闭空间。另一方面，室外级别的自监督学习处理更复杂和动态的环境，如街道、森林和城市景观，其中点云通常更稀疏。与物体和室内场景级别数据相比，室外点云的稀疏性导致语义信息的稀缺，因为可能只有少数几个点表示一个物体或类别。此外，由于各种未见过的类别，室外场景级别点云的感知通常被认为是一个开放集问题，使得任务更具挑战性。自动驾驶系统通常依赖于室外场景的LiDAR数据，这些数据稀疏且缺乏颜色信息[95]。虽然无标签的LiDAR数据很容易获得1，但有标签的数据的生产成本很高。这为在自动驾驶中建立依赖大规模标记3D数据的感知模型提出了一个重大挑战[97]。因此，最近的工作专注于利用对大量未标记3D数据的自监督学习，以提高自动驾驶中下游任务的性能。上述挑战使得室外场景级点云的预训练成为一项艰巨的任务。然而，一些基于预测和流的方法已经被开发出来以匹配室外场景级点云的内在特性。

3.1 基于重构的自监督学习

与物体和室内场景级别的数据类似，基于重构的自监督预训练已成为室外场景级别数据的一个重要研究领域（如图8所示）。然而，室外场景级别点云的稀疏性给3D重构带来了挑战。为了解决直接处理大规模点云所遇到的困难，基于体素的和鸟瞰视图（BEV）的重构方法已成为解决这些挑战的有效途径。 **3.2 基于对比学习的自监督学习 **

与物体或室内场景级别点云相比，室外场景级别点云具有更大的尺寸、噪声、稀疏性、复杂的天气和光照条件。这些因素可能会影响基于对比学习的自监督预训练方法的有效性。因此，在室外场景级别点云中应用基于对比学习的自监督学习需要根据室外场景的特点进行改进，以提高预训练模型的性能和泛化能力。在本节中，我们主要关注室外场景级别点云的对比学习。 **3.3 多模态自监督学习 **

随着距离的增加，由于激光束发散，点云的稀疏度会增加，这使得预测小型和远离的物体的边界和语义类别变得非常困难。结合多种传感器，如激光雷达和摄像头，可以提供互补信息，从而提高自动驾驶系统的整体鲁棒性。使用摄像头提供的高分辨率二维图像，使系统能够更好地处理那些仅通过激光雷达数据难以检测和分类的小型和远离的物体（如图10所示）。然而，获取和处理多模态数据以实现高质量数据融合是非常繁琐的。尽管可以通常获得更高的精度，但多模态探测器不可避免地要牺牲推理效率来处理额外的模态[113]。

**3.4 基于预测的自监督学习 **

点云预测有助于车辆提高其在路径规划和碰撞避免等任务中的决策能力。由于激光雷达扫描的后续帧中天然提供了地面真实情况，因此可以通过自监督学习进行训练，无需昂贵的标注，使其成为自动驾驶应用的有前途的方法。基于距离图像和视觉的预测方法已经被广泛研究，用于从过去的一系列激光雷达扫描中预测未来的点云。[115]和[116]等方法利用RNN来建模时间相关性，而[117]、[118]、[119]和[120]等方法关注于估计体素化的点云。