悉尼大学最新《基于图像的自动驾驶三维目标检测研究进展》论文
基于图像的三维目标检测是自动驾驶技术中最基本、最具挑战性的问题之一,近年来越来越受到业界和学术界的关注。得益于深度学习技术的快速发展,基于图像的三维检测已经取得了显著的进展。特别是,从2015年到2021年,已有200多部著作对这个问题进行了研究,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有最近的综述来收集和组织这些知识。在本文中,我们填补了文献中的这一空白,对这一新兴且不断发展的研究领域进行了首次全面的综述,总结了基于图像的三维检测最常用的方法,并深入分析了它们的每个组成部分。此外,我们还提出了两种新的分类法,将最先进的方法组织成不同的类别,目的是为现有方法提供一个更系统的回顾,并促进与未来工作的公平比较。回顾了目前所取得的成果,分析了当前该领域面临的挑战,并讨论了基于图像的三维检测研究的未来方向。
https://www.zhuanzhi.ai/paper/ffba05abdd8ef430a2cb5682c64fa1a2
引言
本文组织如下。第2节简要介绍了基于图像的三维检测任务。第3节总结了常用的数据集和评价标准。第4节描述了常用框架。这三个部分是为初学者准备的,以便他们快速对基于图像的三维检测问题获得一个很好的理解。在第5节中,我们比较了3D检测器中通常需要的每个组件的细节,而第6节讨论了常用的辅助输入数据。这两个部分可以帮助研究者在这个领域建立一个清晰,深入和更结构化的知识的主题。第7节介绍了本课题的一些讨论,并在第8节中指出了未来可能的研究方向。这两个部分为以后的作品提供了见解。最后,在第9节中得出结论。
任务
在给定RGB图像和相机参数的条件下,基于图像的三维目标检测的目标是对感兴趣的目标进行分类和定位。在3D世界空间中,每个对象都由其类别和边界框表示。通常,三维包围盒的参数化是相对于预定义的参考坐标系(例如记录数据的自我车)的位置[x, y, z],尺寸[h, w, l]和方向[θ, φ, ψ] 。在大多数自动驾驶场景中,只考虑沿上轴方向的航向角θ(偏航角)。图1在2D图像平面和鸟瞰图上显示了示例结果。虽然一般问题的基于图像的三维对象检测可以表示如上所述,值得一提的是:i):除了类别和3D边界框,需要额外的一些基准预测,如二维边界框为KITTI数据集[5]和速度/属性nuScenes数据集[6]。ii):虽然本任务最初只提供图像和相机参数,但该领域普遍采用辅助数据(如立体对、CAD模型、LiDAR信号等)。
数据集
众所周知,大规模数据集的可用性对数据驱动的深度学习技术的成功至关重要。对于自动驾驶场景下基于图像的三维目标检测,公开的数据集[5]、[6]、[11]、[7]、[8]、[9]、[10]、[12]、[13]、[14]的主要特征如表1所示。其中KITTI 3D[5]、nuScenes[6]、Waymo Open[11]是最常用的数据集,极大地促进了3D检测的发展。在下面的文章中,我们将根据数据集的大小、多样性和其他数据提供有关这些基准测试的主要信息。
方法
我们将现有的基于图像的三维检测器分为两类: (1)基于二维特征的方法。这些方法首先从二维特征中估计出图像平面中物体的二维位置(以及方向、深度等项),然后将二维检测提升到三维空间中。基于此,这些方法也可以称为“基于结果提升的方法”。此外,由于这些方法通常与二维检测模型具有相似的结构,因此可以按照二维检测中常用的分类方法(即基于区域的方法和单次射击的方法)进一步进行分类。(ii) 基于三维特征的方法。这些方法基于三维特征对目标进行预测,从而可以在三维空间中直接定位目标。此外,根据如何获取三维特征,这些方法可以进一步分为“基于特征提升的方法”和“基于数据提升的方法”。顾名思义,前者通过提升二维特征获得三维特征,后者直接从二维图像传输的三维数据中提取三维特征。根据前面提到的分类法,我们在图2中突出显示了具有关键基准的重要方法。
由于基于图像的三维检测没有具体的分类方法,以往的工作一般采用经典的二维检测分类方法,将三维检测器分为基于区域的方法和单镜头的方法。我们提出的分类方法更适合于基于图像的三维检测,因为: (i) 我们的分类方法基于特征表示对现有的方法进行分组,从而帮助读者快速构建结构化的知识。(ii)我们的分类表明了检测器如何对齐2D输入数据和3D结果之间的维度不匹配(即结果提升、特征提升或数据提升),这是这项任务的核心问题。(3)我们的分类法可以清晰地定义现有的方法,而以往的分类法不能。例如,基于伪LiDAR的方法(将在4.3.2节中介绍)可以采用任何基于LiDAR的探测器,包括基于区域的方法和单次样本的方法。因此,很难将这些方法划分给任何一方。
未来挑战
基于图像的三维目标检测是一个相对较新的领域。性能得到了迅速的提高和不断的提高,但仍有许多局限性和方向需要进一步分析和探索。在本节中,我们重点介绍了一些最相关的问题,希望为有影响力的未来工作提供相关线索。
深度估计
基于图像的三维目标检测方法的性能在很大程度上依赖于目标精确距离的估计能力。因此,分析和提高三维目标探测器的深度估计能力是未来的一个相关方向。最近的许多研究,如[20],[49],[75],[92],[95],[25],试图解决这个问题,提出了回归目标和损失公式的替代定义,并表明仍有很大的改进空间。
不止监督学习
创建3D检测数据集是一个非常昂贵和耗时的操作。它通常涉及不同技术(如激光雷达、GPS、相机)之间的协同作用,以及大量的劳动力。注释过程的要求很高,即使存在许多质量检查,它也不可避免地受到错误的影响。因此,可以看到,几乎所有的三维物体检测方法都是完全监督的,即需要训练三维包围盒标注。相反,在其他相关领域,完全的监督要求已被放宽,如深度估计[56],[183]或基于lidar的3D检测[184],[185],[186],[187],很少有人致力于探索半监督或自监督方法[178],[188],[4]。在这方面,值得强调的是[178]中的方法,该方法引入了一个可微分的渲染模块,可以利用输入的RGB图像作为唯一的监控源。此外,鉴于在通用场景(如NeRF[189])和真实对象(如[190],[191])上可区分渲染领域的最新进展,我们相信这个特定的方向非常有价值,并有可能放松3D框注释的要求。
多模态
如第7节所述,图像数据和LiDAR数据都有各自的优势,一些方法,如[31],[89],[32],[162],[163],最近已经开始将这两种类型的数据整合到一个模型中。然而,这一领域的研究仍处于起步阶段。此外,还可以考虑其他数据形态,进一步提高算法的准确性和鲁棒性。例如,与激光雷达相比,雷达设备具有更长的传感距离,可以用来提高对遥远物体的精度。此外,在一些极端天气条件下,如雨天和大雾天气,雷达更加稳定。然而,虽然在一些数据集[6],[192],[193]中已经提供了雷达同步数据,但研究如何使用的方法却很少[193],[194],[195]。另一个例子是来自热相机的数据[196],这为解决不利的照明条件,提高探测精度提供了新的机会。综上所述,理想的检测算法应该集成多种数据,覆盖异构和极端条件。
时间序列
在现实世界中,人类驾驶员依靠连续的视觉感知来获取周围环境的信息。然而,该领域的大部分工作都是从单帧的角度来解决三维检测问题,这显然是次优的,最近只有一项工作[69]开始考虑时间线索和约束。另一方面,大量的工作已经证明了在许多任务中使用视频数据的有效性,包括二维检测[197]、[198]、深度估计[199]、[200]、分割[201]、[202],以及基于LiDAR的三维检测[203]、[204]、[205]。这些相关领域的成功证明了视频数据在三维探测任务中的潜力,通过引入时间数据和构建时空空间新约束可以实现新的突破。
泛化性
泛化对自动驾驶汽车的安全性起着重要的作用。在这方面,不幸的是,众所周知,基于图像的3D对象检测方法在测试看不见的数据集、对象或具有挑战性的天气条件时,性能会有相当大的下降。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“3DAD” 就可以获取《悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展,阐述3D检测数据、方法与挑战》专知下载链接