德国伊尔梅瑙工业大学提出新型「Complex-YOLO」，可实现点云上的「实时3D目标检测」

会员服务 ·

德国伊尔梅瑙工业大学提出新型「Complex-YOLO」，可实现点云上的「实时3D目标检测」

2018 年 4 月 28 日 极市平台 Martin 等

↑ 点击蓝字关注极市平台识别先机创造未来

来源：雷克世界

原文链接：

https://www.arxiv-vanity.com/papers/1803.06199/

作者：Martin Simon、 Stefan Milz、Karl Amende、Horst-Michael Gross

基于激光雷达的三维目标检测对于自动驾驶而言是不可避免的选择，因为它与对环境的理解直接相关，从而为预测和运动规划奠定了基础。对于除了自动化车辆之外的许多其他应用领域，例如增强现实、个人机器人或工业自动化，对实时高度稀疏的三维数据进行推断的能力是一个不合适的问题。

我们引入了Complex-YOLO，这是一种最先进的仅针对点云（point clouds）的实时三维目标检测网络。在本研究中，我们描述了一个网络，该网络通过一个特定的复杂的回归策略来估计笛卡尔空间（Cartesian space）中的多类三维立方体，从而扩展YOLOv2（一种用于RGB图像的一个快速二维标准目标检测器）。

因此，我们提出了一个特定的Euler区域提议网络(Euler-Region-Proposal Network，E-RPN)，通过在回归网络中添加一个虚构的和一个真实的分数来估计目标的姿势。这是在一个封闭的复杂空间中结束的，从而避免了单角度估计的奇异性。E-RPN支持在训练过程中进行良好的泛化。

我们在KITTI基准套件上进行的实验表明，我们的性能优于当前领先的三维目标检测方法，尤其在效率方面。我们取得了对汽车、行人和骑车者进行测试的最先进的结果，比最快的竞争者快5倍以上。此外，我们的模型能够同时以高精确度估计所有的8个KITTI类，包括货车、卡车或坐着的行人。

近年来，随着汽车激光雷达传感器的巨大完善，点云处理对自动驾驶而言变得越来越重要。供应商的传感器能够实时提供周围环境的三维点。其优点是直接测量所包含的目标之间的距离。这使我们能够开发出用于自动驾驶的目标检测算法，该算法能够精确地估计出三维中不同目标的位置和航向。

与图像相比，激光雷达点云稀疏，其密度分布在整个测量区域中变化。这些点是无序的，它们在本地进行交互，并且主要是不能被孤立分析。点云处理对于基本转换应该是始终保持不变的。

Complex-YOLO是一个非常有效的模型，可直接在仅基于激光雷达的鸟瞰RGB视图上进行操作，以估计和精确定位3D多类边界框。

上图的上半部分显示了诸如预测目标等基于Velodyne HDL64电云的鸟瞰图，下半部分显示3D边界框被重新投影至图像空间中。注意：Complex-YOLO仅基于激光雷达进行操作，而不需要相机图像作为输入。

一般而言，基于深度学习的目标检测和分类是众所周知的任务，并且在图像的2D边界框回归的建立中得到了广泛应用。研究的重点主要是精确度和效率的权衡。在自动驾驶领域，效率更为重要。

因此，最好的目标检测器往往使用区域提议网络（RPN）或类似的基于网格的RPN方法。这些网络非常高效、准确，甚至能够在专用的硬件或嵌入式设备上运行。尽管点云上的目标检测依然很少，但它们正变得越来越重要。

这些应用程序需要能够预测3D边界框。目前，主要有三种不同的深度学习方法：

使用多层感知器的直接点云处理。
通过使用卷积神经网络（CNN）将点云转换为体素或图像堆栈。
组合式融合方法。

最近，基于Frustum的网络在KITTI 基准套件中表现出了很好的性能。该模型在3D目标检测方面排名第二，在汽车、行人和骑行者的鸟瞰检测方面同样排名第二。这是唯一的方法，它直接使用Point-Net直处理点云，而不使用激光雷达数据和体素创建中的CNN。

然而，它需要预处理，因此它必须使用相机传感器。基于另一个对标定的相机图像进行处理的CNN，它通过利用这些检测将全局云点最小化到基于截面的已减少点云。这种方法有两个缺点：

模型的精准度在很大程度上依赖于相机图像及其相关的CNN。因此，该方法不可能仅适用于激光雷达数据。

整个管道需要连续运行两种深度学习方法，这会导致运算时间更长而效率更低。参考模型在NVIDIA GTX1080i GPU上大约以7fps的低帧率运行。

与之相反，Zhou等人提出了一种仅适用于激光雷达数据的模型。就这方面而言，它是KITTI上仅使用激光雷达数据进行3D和鸟瞰探测的最佳模型。

其基本思想是在网格单元上运行端到端的学习，而不使用人工制作的特征。网络单元格的内部特征是在训练期间利用Pointnet方法学习的。在顶部建立一个预测3D边界框的CNN。尽管拥有很高的精准度，但该模型在TitanX GPU上的最快运算时间为4fps。

Chen等人报道了另一种排名很靠前的方法。其基本思想是利用人工制作的特征将激光雷达点云投影到基于体素的RGB地图上，如密度、最大高度和一个具有代表性的点强度。

为了获得具有更高精准度的结果，他们使用了基于激光雷达的鸟瞰图，基于激光雷达的前视图以及基于相机的前视图的多视图方法。这种融合处理需要很长时间，即便在NVIDIA GTX 1080i GPU上也仅为4fps。另一个缺点是需要辅助传感器输入（相机）。

空间真实数据分布。上图左侧的样本检测描绘了鸟瞰区域的大小，右侧图显示了《我们准备好了自动驾驶吗？ kitti视觉基准套件》中所注释的2D空间直方图。该分布概述了用于注释的照相机的水平视野以及地图中遗留的盲点。

性能比较。该图显示了与运行时间（fps）相关的mAP。所有模型都在Nvidia Titan X或Titan Xp上进行测试。Complex-Yolo的运行速度比KITTI基准测试中最有效的竞争对手快5倍，进而获得准确的结果。

我们在一个专用的嵌入式平台(TX2)上对我们的网络进行了测试，并与五种领先的模型进行了比较，结果表明我们的网络具有合理的效率(4fps)。Complex-Yolo是首个用于实时3D目标检测的模型。

本文首次提出了基于激光雷达的点云3D目标检测的第一个实时高效深度学习模型。我们在KITTI基准测试套件中就精准度（如上图所示）而言突显了我们最新的成果，其卓越的效率超过50fps（NVIDIA Titan X）。

我们不像大多数主流方法那样需要额外的传感器，例如相机。这一突破是通过引入新的E-RPN（一种借助复杂数字来估计方位的Euler回归方法）实现的。无奇点的封闭数学空间允许鲁棒角度预测。

我们的方法能够在一条前进的道路上同时检测多种类别的目标（例如：汽车、火车、行人、骑行者、卡车、有轨电车、坐着的人等）。这种全新的方法可以在自动驾驶汽车中实现落地应用，并且以此来区别于其他车型。

我们甚至在专业的嵌入式平台NVIDIA TX2（4fps）展示了实时性能。在今后的研究工作中，我们计划在回归中加入高度信息，在空间中真正实现独立3D目标检测，并在点云预处理过程中利用速度-空间相关性，以获得更好的分类性能和更高的精准度。

相关内容

Complex-YOLO

关注 0

【KDD2020】动态图的拉普拉斯变换点检测，Laplacian Change Point Detection for Dynamic Graphs

专知会员服务

38+阅读 · 2020年7月3日

最新《深度学习自动驾驶》技术综述论文，28页pdf

专知会员服务

156+阅读 · 2020年6月14日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

【西安交大】深度学习目标检测方法综述

专知会员服务

164+阅读 · 2020年4月21日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

【CVPR2020-Uber】物理上可实现的对抗性的例子，用于激光雷达的目标检测，Physically Realizable Adversarial Examples for LiDAR Object Detection

专知会员服务

22+阅读 · 2020年4月16日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日

天津大学等发布最新「无人机视觉检测和跟踪」综述论文：过去、现在和未来

专知会员服务

63+阅读 · 2020年1月21日

国防科技大学发布最新3D点云深度学习综述论文，带你全面了解最新点云学习方法

专知会员服务

109+阅读 · 2019年12月31日

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

贾佳亚等提出Fast Point R-CNN，利用点云快速高效检测3D目标

机器之心

11+阅读 · 2019年9月10日

已删除

将门创投

8+阅读 · 2019年6月13日

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

泡泡机器人SLAM

12+阅读 · 2019年5月20日

【泡泡点云时空】FlowNet3D：学习三维点云中的场景流

泡泡机器人SLAM

41+阅读 · 2019年5月19日

【泡泡点云时空】LaserNet：一种用于自动驾驶的高效三维目标概率检测器

泡泡机器人SLAM

5+阅读 · 2019年5月12日

【泡泡点云时空】ApolloCar3D：一个大规模理解自动驾驶基准的3D汽车实例

泡泡机器人SLAM

5+阅读 · 2019年4月19日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡一分钟】点云到网格的回归算法实现

泡泡机器人SLAM

8+阅读 · 2018年11月23日

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

泡泡机器人SLAM

12+阅读 · 2018年10月2日

Efficient Tracking Proposals using 2D-3D Siamese Networks on LIDAR

Arxiv

4+阅读 · 2019年3月25日

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Stereo R-CNN based 3D Object Detection for Autonomous Driving

Arxiv

5+阅读 · 2019年2月26日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

3D-LaneNet: end-to-end 3D multiple lane detection

Arxiv

7+阅读 · 2018年11月26日

Complex-YOLO: Real-time 3D Object Detection on Point Clouds

Arxiv

3+阅读 · 2018年3月16日

3D-SSD: Learning Hierarchical Features from RGB-D Images for Amodal 3D Object Detection

Arxiv

8+阅读 · 2018年2月21日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

Interpretable R-CNN

Arxiv

4+阅读 · 2017年11月14日

Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video

Arxiv

5+阅读 · 2017年9月18日

VIP会员