CVPR 2020 | 港中文提出3D目标检测新框架DSGN

会员服务 ·

CVPR 2020 | 港中文提出3D目标检测新框架DSGN

2020 年 4 月 16 日 PaperWeekly

©PaperWeekly 原创 · 作者｜张承灏

学校｜中科院自动化所硕士生

研究方向｜双目深度估计

本文介绍的是香港中文大学贾佳亚团队在 CVPR 2020 上提出的 3D 目标检测新框架——深度立体几何网络（Deep Stereo Geometry Network，DSGN）。

通过构造一种可导的 3D 几何体来实现 3D 目标检测，从而减小了基于图像的方法和基于 LiDAR 的方法之间的鸿沟。这是第一个一阶段的，基于双目的 3D 目标检测器，在 KITTI 3D 目标检测榜单上超越以往基于双目的 3D 目标检测方法。

论文标题：DSGN: Deep Stereo Geometry Network for 3D Object Detection

论文地址：https://arxiv.org/abs/2001.03398

开源代码：https://github.com/chenyilun95/DSGN

背景

根据特征的表示方法不同，3D 目标检测器主要分为基于图像的 3D 检测器和基于 LiDAR 的 3D 检测器。

基于 LiRAD 的 3D 检测器：主要分为基于体素的方法和基于点云的方法；
基于图像的 3D 检测器：主要分为基于深度估计的方法和基于 3D 特征的方法；

由于 LiDAR 传感器能够捕捉准确的 3D 信息，因此基于 LiDAR 的 3D 检测器准确率较高。其不足之处在于 LiDAR 设备笨重且价格昂贵，得到是带有激光束的稀疏分辨率的数据。

相比之下，视频摄像机要便宜很多，并且能够产生更加稠密的分辨率。这种基于图像的方法通常依靠单目或者双目深度估计，但是准确率仍然无法与基于 LiDAR 的方法相媲美。

基于深度估计的方法将 3D 目标检测分为两步：深度估计和目标检测，这其中最大的挑战在于 2D 网络并不能提取到稳定的 3D 信息。

另一种方案是先利用深度估计产生中间伪点云，再利用基于 LiDAR 的 3D 目标检测方法。但是这种方法中的变换是不可导的，并且需要多个独立的网络，还容易出现失真现象。

DSGN 是一种基于双目深度估计的，端到端的 3D 目标检测框架，其核心在于通过空间变换将 2D 特征转换成有效的 3D 结构。论文的主要贡献如下：

为了弥补 2D 图像和 3D 空间的鸿沟，作者利用立体匹配构建平面扫描体（plane-sweep volume，PSV），并将其转换成 3D 几何体（3D geometric volume，3DGV），以便能够编码 3D 几何形状和语义信息。
作者设计了一个端到端的框架，以提取用于立体匹配的像素级特征和用于目标识别的高级特征。所提出的 DSGN 能同时估计场景深度并检测 3D 目标，从而实现多种实际应用。
作者提出的简单且完全可导的网络在 KITTI 排行榜上超越所有其他基于双目深度估计的 3D 目标检测器（AP 高出 10 个点）。

方法

上图展示了 DSGN 的整体框架图。将双目图像对作为输入，利用权重共享的孪生网络提取特征，并构建一个平面扫描体（PSV），它可以学习逐像素的对应关系。

接着通过可导的 warping 操作，将 PSV 转换为 3D 几何体（3DGV），从而构建 3D 世界坐标系的 3D 几何特征。最后利用 3D 卷积网络作用于 3DGV 进行 3D 目标检测。

2.1 特征提取

作者借鉴 PSMNet [1] 的特征提取器作为深度估计和 3D 目标检测的共享特征提取网络。为了提取更多的高层次特征，并且减少计算量，主要进行了以下改动：

将更多的计算从 conv_3 转到 conv_4 和 conv_5，比如从 conv_2 到 conv_5 的基本模块的通道数从 {3,16,3,3} 变成 {3,6,12,4}。
PSMNet 中的 SPP 模块增加了 conv_4 和 conv_5。
conv_1 的输出通道数和残差模块的输出通道数有所改变。

详细的网络结构可参考论文中的附录部分。

2.2 构建3DGV

论文的核心是如何构建带有 3D 几何特征的 3DGV，它是由 PSV 经过 warping 操作转换得到。3DGV 可以看做是 3D 世界坐标系的 3D 体素网格，它的大小是，分别沿摄像机视角的右方，下方和前方。每个体素的大小是。

2.3 Plane-Sweep Volume

在双目立体匹配中，一对左右图像用来构造基于视差的匹配代价体（cost volume），它计算了左右图像的像素点在水平方向上的位移是视差的匹配代价。

根据基于 cost volume 的立体匹配方法，连接左右图特征构造 PSV，它的坐标表示为，其中表示图像上在该位置的像素点，表示垂直于图像平面的深度信息。那么空间可以被称为相机坐标系。

之后利用 3D Hourglass 网络进行代价聚合。对于视差/深度估计，利用可导的 soft argmin 操作来计算所有概率为的深度候选值的期望：

其中深度的候选值在间隔为的预定义网格（即）内均匀采样。再利用 softmax 函数使得模型为每个像素点只选择一个深度值，从而完成深度估计。

2.4 3D Geometric Volume

有了照相机坐标，在已知摄像机内参的情况下，可以利用相机投影矩阵实现从世界坐标系到相机坐标系的转换。假设世界坐标系表示为，而前面的相机坐标表示为，经典的转换方法是从世界坐标系到相机坐标系：

而现在PSV的最后一层特征作为已知的相机坐标系，要想得到世界坐标系，因此需要使用相机投影矩阵的逆矩阵。

其中和分别是水平方向和竖直方向的焦距，和是相机位姿参数。该操作是完全可导的，可以利用三线性差值的 warp 操作实现。

2.5 3D目标检测器

对于 3D 目标检测网络部分，作者借鉴 anchor-free 的方法 FCOS [2] 中的centerness思想，设计了一种基于距离的策略来分配目标，同时也继续保持anchor。

具体来说，令 3DGV 中的特征图大小为，经过逐步下采样操作，得到用于鸟瞰视角的特征图，其大小为。

对于中的每一个位置，放置几个不同方向和大小的anchor。假设anchors用表示，而GT目标框用表示，那么它们的位置，预设大小和方向定义如下：

Anchors：
GT：
预测值：

其中是 anchor 方向的数量，是每个参数学习的偏置。

沿用 FCOS 中的 centerness 思想，作者利用 anchor 和 GT 在 8 个角上的坐标距离作为目标分配的策略：

将与 GT 最近的 N 个样本作为正样本，其中，是 GT 中体素的个数，而用来调整正样本的个数。最终的 centerness 定义如下：

其中的范数表示最小-最大归一化。

2.6 多任务训练

DSGN 的整个网络同时进行双目深度估计和 3D 目标检测，因此是一个多任务训练过程，整体 loss 如下：

对于深度估计，采用 smooth L1 loss，是 GT 中的有效像素点，

对于 3D 目标检测的分类任务，采用 focal loss 避免样本不平衡的缺陷，是正样本的个数，对于 centerness 采用 BCE loss。

对于 3D 目标检测的回归任务，采用 smooth L1 loss 进行回归，

实验

作者在 KITTI 3D 目标检测数据集上进行实验评测，该数据集包含 7481 张训练图像对和 7518 张测试图像对，分为 Car, Pedestrian 和 Cyclist 三种类型。下面是在测试集上的主要结果：

从表中可以看出，对于 3D 和 BEV（Bird's Eye View）目标检测，DSGN 超越了所有基于图像的 3D 目标检测器；在 2D 检测上，也仅仅比 3DOP 要差一点。

值得一提的是，DSGN 首次得到了与基于 LiDAR 的目标检测器 MV3D 相当的准确率，该结果证明至少在低速自动驾驶条件下是有应用前景的。这些都验证了 3DGV 的有效性，表明 3DGV 构建了 2D 图像和 3D 空间的桥梁。

作者将训练集分成一半训练集，一半验证集进行消融分析，下面是消融实验的结果：

从上表中可以得到以下几个结论：

点云的监督是很重要的。有点云监督的结果要大大优于没有监督的情况。
在有点云监督的情况下，基于双目的方法要远远优于基于单目的方法。再次证明仅仅有 3D 检测框的监督信息是不充分的，基于双目的深度信息对于 3D 检测相当重要。
PSV 对于 3D 结构是一种更合适的特征表示。PSCV 相比于 CV 的不同在于从相机坐标系到世界坐标系的转换，对于 3D 检测 AP 从 45.89 提升到 54.27。
PSV 作为一种中间编码方式能更有效地包含深度信息，因为它是深度估计网络的中间特征。

讨论和总结

Stereo RCNN [3] 是 CVPR 2019 的 3D 目标检测器，它是通过扩展 Faster RCNN，以双目图像作为输入的端到端 3D 检测器。我们可以通过比较 DSGN 和 Stereo RCNN 的不同之处来更好的理解 DSGN。

DSGN 是 one-stage 的目标检测器，而 Stereo RCNN 是 two-stage 的。
DSGN 利用了深度点云信息作为深度估计网络的监督，从而实现深度估计和3D目标检测的多任务学习，而 Stereo RCNN 仅有 3D 检测框的监督信息。这种点云监督信息使得DSGN中的 PSV 成为更好的特征表示，这可能是 DSGN 性能大大提升的根本所在。
从目标检测的角度看，二者都采用了 anchor，不过 DSGN 借鉴了 anchor-free 的 centerness 思想，使得检测性能更优。