【摘要】点云是3D矩阵空间中的点集合。 点云已经成为3D特征表示最重要的数据格式之一。随着诸如LiDAR等获取设备的可用性越来越高,3D点云也越来越受欢迎,越来越多的被应用在机器人,自动驾驶,增强现实和虚拟现实等领域。目前深度学习已经成为计算机视觉任务中数据处理最重要的工具,成为分类、分割和检测等任务的首选技术。深度学习技术主要应用于具有结构化网格的数据,而点云是非结构化的。点云的非结构化使得将深度学习直接用于数据处理变得非常具有挑战性。早期的方法通过将点云预处理成结构化的网格格式来克服这一挑战,代价是计算成本的增加或深度信息的丢失。然而,最近提出的许多先进的深度学习技术可以直接在点云上进行操作。这篇综述主要是对当前在3D点云应用上表现优异的深度学习方法进行调查研究。我们首先探讨将深度学习直接应用到点云上所面临的挑战,简短地讨论早期通过将点云预处理为结构化数据从而克服上述挑战的方法。然后会回顾各种表现优异的深度学习方法,这些方法可以直接将点云处理为非结构化的网格数据。最后,我们会介绍一些常用的3D点云基准数据集,进一步探讨深度学习在分类,分隔,目标检测等3D视觉任务中的应用。
介绍
我们生活在一个三维世界当中,但是自1888年相机发明以来,3D世界的视觉信息就通过相机被隐射到2D的图片上。然而,2D图片丢失了深度信息和目标之间的相对位置信息,这使得2D图片不适合那些需要深度信息和位置信息度的应用,比如机器人,自动驾驶,虚拟现实和增强现实等。为了捕捉3D世界的深度信息,早期是使用立体视觉,使用2个或更多校准的数码相机来提取三维信息。点云是一种经常用于表示三维几何的数据结构,它可以直接表示从立体视觉摄像机中提取的三维信息以及RGB-D生成的深度图。
点云就是空间中的一组数据点。场景中的点云是对场景中物体表面的3D数据点进行抽样所组成的点集。一种最简单的格式是3D点云由X,Y,Z坐标轴表示,然而有时候我们也会将RGB值作为额外的特征。点云是表征3D世界的一种非常方便的格式,其应用领域也非常广泛,比如机器人,自动驾驶,增强现实和虚拟现实以及其他的工业应用。
内容
概要和介绍
深度学习在点云应用上所面临的挑战
回顾早期克服挑战的方法,这些方法把点云转换为结构化的数据
深入介绍了直接处理点云的各种深度学习方法
介绍了和3D点云相关的各种基准数据集
探讨了3D点云在3D视觉任务中的各种应用
总结
主要挑战
无规则:点云数据是无规则的,也就是说这些点不是从一个物体/场景的不同区域中抽样得到的,所以有可能出现某些区域点比较密集,有些区域点比较稀疏的现象。
无结构:点云数据不是一个规则的网格,每一个点与其邻居结点的距离都是不固定的。
无序性:场景点云是将场景中的物体周围获得的一组点(通常用XYZ表示)以列表的形式存储在文件中。作为一个集合,点的存储顺序不会改变所表示的场景。
深度学习,特别是卷积神经网络之所以成功就是因为卷积操作。卷积操作被用来提取特征,远优于手工提取特征。图2是一个典型的2D卷积操作,这种卷积操作需要结构化的数据,但是点云数据是非结构化的,为了克服这种挑战,有许多方法是把点云数据转换为一种结构化的数据格式,这些方法大体上可以分为两类:基于voxel和基于multiview(如图3和图4所示)。
直接将深度学习应用到原始的点云
PointNet的结构如图5所示。PoinNet有两个基本的对称函数,多层感知机(MLP)和一个最大池化层组成,其中MLP可以将点的特征维度从D=3转换到D=1024,所有点共享参数。为了聚合全局特征,最大池化对称函数被用来生成全局1024维的特征向量,该特征向量可以被用来识别和分割任务。
采用局部结构计算方法
基本上,由于点云的无序性——这一固有性质,局部结构建模需要依赖于三个基本操作:采样,分组和一个映射函数,该函数通常由多层感知器(MLP)来近似模拟。MLP将最近的邻居点的特征映射为能够编码更高级别信息的特征表示,参见图6。
基准数据集
目前大多数数据集都是有大学或者工业界提供的。这些数据集可以为基准方法提供一个相对公平的比较环境。这些数据集来自虚拟场景或者真实场景,主要适用于点云分类,分割和目标检测。它们在深度学习中非常有用,因为它们可以为训练网络提供大量的真实标签。数据集由不同的平台和方法得到,比如Structure from Motion(sfM),Red Green Blue -Depth(RGB-D)相机和Light Detection And Ranging(LiDAR)系统。随着数据集规模和复杂度的增加,基准数据及的可用性可能会下降。
部分论文展示
便捷查看下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“RDLPC” 就可以获取本综述下载链接