自动驾驶之基于兴趣区域投票的多任务车辆检测｜厚势汽车

2019 年 7 月 17 日 厚势

车辆检测是自动驾驶车辆感知模块中的关键技术之一。由于视角、遮挡和截断造成的大规模内部分类的不同，使得车辆检测非常具有挑战性。本文提出基于多任务 CNN 和 RoI 投票的车辆检测方法，优于大多数现有的车辆检测框架。

摘要：车辆检测是自动驾驶系统中的一个具有挑战性的问题，因为其具有较大的结构和外观变化。在本文中，我们提出了一种基于多任务深度卷积神经网络（CNN）和感兴趣区域（RoI）投票的新型车辆检测方案。在 CNN 体系结构的设计中，我们以子类别、区域重叠、边界框回归和每个训练 ROI 的类别作为一个多任务学习框架来丰富监督信息。该设计允许 CNN 模型同时在不同车辆属性之间共享视觉信息，因此，可以有效地提高检测鲁棒性。此外，大多数现有方法独立考虑每个 RoI，忽略了其相邻 RoI 的线索。在我们的方法中，我们利用 CNN 模型来预测每个 RoI 边界朝向相应标注过的数据的偏移方向。然后，每个 RoI 可以对那些合适的相邻边界框进行投票，这与该附加信息一致。投票结果与每个 RoI 本身的得分相结合，以从大量候选中找到更准确的位置。KITTI 和 PASCAL2007 车辆数据集的实验结果表明，与其他现有方法相比，我们的方法在车辆检测中实现了卓越的性能。

1.引言

车辆检测是许多视觉计算应用的基本问题，包括交通监控和智能驾驶。不幸的是，由于不同视点，遮挡和截断引起的较大类内差异，车辆检测非常具有挑战性。图1显示了一些具有不同复杂性的例子，这些例子来自 PASCAL2007 汽车数据集 [1] 和最近提出的 KITTI 车辆检测基准 [2]。

图 1.来自两个数据集的车辆检测的复杂性的图示（a）PASCAL VOC2007 汽车数据集由不同视点和较少遮挡的单车组成。（b）KITTI 车辆基准包括安装在驾驶汽车上的摄像头拍摄的道路上的汽车，该汽车具有更多的遮挡和截断。

通常，车辆检测可以被视为通用对象检测的特殊主题。在过去几年中，研究人员在提高物体检测性能方面取得了显着进展 [3-8]。解决此问题的常见流程包括两个主要步骤：

生成建议目标；
特定类的评分和边界框回归。

对于第一步，有很多精心设计的方法 [8-11] 用于生成建议目标或仅仅是 [5] 中使用的滑动窗口方式。然后提取对象边界框的一些特定视觉特征，并利用分类器确定有界区域是否是期望对象，其中代表性方法包括 AdaBoost 算法 [3]，DPM 模型 [5] 和深度 CNN 模型 [7]。然而由于车辆的结构和外观变化较大，尤其是普遍存在的遮挡，这进一步增加了类内差异，使得车辆检测仍然具有挑战性，此外，许多车辆检测基准要求联合交叉（IoU）超过 0.7 以评估正确的定位，这显著提高了对模型的性能要求。

在本文中，我们提出了一种基于多任务深度卷积神经网络（CNN）、感兴趣区域（RoI）投票和多级定位的新型车辆检测方案，由 RV-CNN 表示。多任务学习旨在实现信息共享，同时解决多个相关任务，提高部分甚至所有任务的性能 [12]。在我们的方法中，CNN 模型在四个任务上进行训练：类别分类，边界框回归，重叠预测和子类别分类。在这里，我们引入子类别分类任务来使得 CNN 模型在不同的遮挡，截断和视点下都能学习车辆的良好表示。我们利用 [13] 中提出的 3D 体素模式（3DVP）概念进行子类别分类。3DVP 是一种对象表示，它共同捕获关键对象属性，这些属性涉及到在聚类过程中刚性对象的外观、对象姿态、遮挡和截断。然后每个 3DVP 被认为是一个子类别。

大多数检测方法利用 CNN 模型的预测分数进行非极大值抑制（NMS），以得到最终的边界框位置。但是，高于某一水平的检测分数与边框提案的可靠性没有很强的相关性 [14]。原因之一是训分类器被训练为从背景中对对象进行分类，而不是对联合交叉（IoU）进行排序。因此，我们建议使用邻近的 RoI 来完善这一评分。首先，我们使用 CNN 模型同时预测从 RoI 到每个边界的标注过的数据的偏移方向。有了这些额外的信息，我们设计了一个简单而有效的投票方案来重新分配这些 ROI。在所有提案的得分重新计算后，我们可以应用 NMS 得到最终结果此外，我们观察到，在 IOU 超过 0.7 的限制下，区域提案网络[8]的产出不能保证达到 100% 召回。这将对以下检测网络构成挑战，因为它必须在没有高质量建议的情况下处理一些困难的案例。此外，在更快的 R-CNN [8] 中，NMS 的预测框的检测分数不准确，因为它在回归之前应用了 RoI 的卷积特征。考虑到这两个缺点，本文提出了一种多级定位方案，进一步提高了检测精度和可靠性。

我们已经在两个常用的车辆检测数据集（KITTI 车辆基准 [2] 和 PASCAL VOC2007 汽车数据集 [1]）上评估了我们的方法。我们的方法在 KITTI 车辆检测基准上实现了 91.67％的 Ap，显著超越了最近的结果 [15-17]。此外，我们还对 PASCAL VOC2007 汽车数据集进行了实验。实验结果表明，与基线和相关方法相比，我们的 RV-CNN 模型具有了一致且显着的性能提升。

2.相关工作

在本节中，我们将简要回顾一下最近关于一般物体检测和车辆检测的工作。

通用目标检测是近年来研究的一个活跃领域，有着大量的前期工作。[3] 中的级联式检测器是最早实现相对高精度实时检测的方法之一。这种结构已广泛用于实现人脸 [3]，[18]，行人 [19] 和车辆 [20] 的滑动窗口探测器。基于部分的模型也是文献中最强大的物体检测方法之一，其中可变形的组件模型（DPM）[5]，[21] 是一个很好的例子。该方法采用定向梯度直方图（HOG）特征作为输入，并利用由根滤波器和组件滤波器组成的星形结构来表示高度可变的物体，使其能够检测出被严重遮挡的物体。

最近，深度卷积神经网络（CNN）表现出了卓越的性能，在各种视觉任务中占据了最高精度基准 [22-26]。这些工作提出了大量的方法 [7]，[8]，[27-36] 解决了 CNN 模型的问题。在这些方法中，具有卷积神经网络（R-CNN）框架 [7] 的区域已经取得了很好的检测性能，并成为对象检测的常用范例。其基本步骤包括使用选择性搜索的建议目标生成 [9]，CNN 特征提取，基于 CNN 特征的对象候选分类和回归。

然而 R-CNN 带来了过多的计算成本，因为它为数千个建议目标重复提取 CNN 特征。为了加速 R-CNN 中的特征提取过程，提出了空间金字塔汇集网络（SPPnet）[28] 和基于快速区域的卷积网络（Fast R-CNN）[29]。其缺点是仍然采用自下而上的建议目标生成，这是效率的瓶颈。相反，在 [8] 中提出了一种区域生成网络（RPN），它与检测网络共享全图像卷积特征，从而实现了几乎无成本的区域生成。MS-CNN [15] 由提议子网和检测子网组成。在提议子网中，在多个输出层执行检测，以便匹配不同尺度的对象。这种方案也用于 SSD [32] 和 TextBoxes [37]。另一个有趣的工作是 YOLO [31]，它在 7x7 网格内输出对象检测。该网络以 40fps 运行，但检测精度有所降低。

大多数这些深度模型都针对一般物体检测。为了更好地处理被遮挡车辆的检测问题，在 [38] 中的一个 DPM 模型提供的根和组件分数配置上使用了第二层条件随机场（CRF）。最近，在 [39] 和 [40] 中提出了一个和或结构，以有效地将遮挡配置与经典的 DPM 进行比较。在 [41] 中，作者建议将车辆检测和属性注释结合起来。此外，改进模型泛化的一种常见方法是学习对象类 [20] 中的子类别。子类别已被广泛应用于车辆检测，并提出了几种子类别分类方法 [42-45]。在 [42] 中，使用局部线性嵌入和 HOG 特征以无监督的方式学习学习对应于车辆方向的视觉子类别。参考文献 [43] 根据对象的视角执行聚类，以发现子类别。在 [45] 中研究了区分性子分类，其中聚类步骤考虑了负面实例。最近，[13] 提出了一种新的对象表示，即三维体素模式（3DVP），它共同编码对象的关键属性，包括外观、三维形状、视点、遮挡和截断。该方法以数据驱动的方式发现 3DVPS，并为 3DVPS 训练一组专门的检测器。在 [46] 中，作者利用 3DVP 子类别信息训练子类别卷积层，输出特定位置和比例下某些子类别存在的热图。在我们的工作中，我们将子类别分类作为改进基于 CNN 的检测性能的多任务的一部分，并且可以使用在 [13]、[42] 和 [43] 中获得的子类别标签来实现该组件。

3.具体检测过程

在本节中，我们描述了用于解决车辆检测问题的多任务深度卷积神经网络。对于每个输入图像，我们的方法包括三个主要阶段。首先，我们生成一个由多尺度区域生成网络（RPN）[8] 获得的对象提议池。然后我们使用多任务 CNN 模型来预测每个 RoI 的属性。根据回归结果，一些提案将由二级回归网络处理。最后，我们采用有效的投票机制来优化每个 RoI 的最终得分。此外，由于我们可以获得子类别信息，因此我们引入了子类别感知的非极大值抑制（NMS）来更好地处理遮挡。最后，我们可以获得在实际应用中非常准确的预测框。

多任务损失函数

最近，多任务学习已经应用于许多计算机视觉问题，特别是在缺乏训练样本的情况下 [12]。多任务学习的目的是在同时解决多个相关任务的同时，加强信息共享。这种共享已经被证明可以提高部分或全部任务的性能 [12]，[47]，[48]。对于车辆检测问题，我们通过子类别，区域重叠，边界框回归和每个训练 RoI 的类别作为多任务学习框架，丰富了监督信息。接下来，我们将详细解释多任务 CNN 模型的提议方法的细节。图 2 显示了所提出的多任务学习框架的总体流程。如图 2 所示，在生成 RoI 之后，我们将 [29] 中提出的 RoI 池化层应用于每个 RoI 的池卷积特征。然后，汇集的卷积特征用于完成四个任务：类别分类，边界框回归，重叠预测和子类别分类。最后一部分「偏移方向预测」将在下一节中描述。每个被训练的 RoI 都标有真实类和真实边界框回归目标，类似于 [29] 中的设置。通常，该监督信息用于设计分类损失 L cat 和边界框回归损失 L loc。

接下来，第三个任务是子类别分类。对于复杂和杂乱的城市场景中的车辆检测，遮挡和视点是关键方面。如在 [40] 中，处理遮挡需要能够捕获组件层面上遮挡的基本规律（即不同遮挡配置），并且明确地利用与遮挡共同发生的上下文信息，这超出了单车辆检测的范围。此外，不同视图中的 2D 图像也难以识别。这些显着增加了类内差异。为了表示遮挡和视点变化，我们采用最近在 [13] 中提出的 3D 体素模式（3DVP）的概念。3DVP 是一种对象表示，它共同捕获与外观，三维形状和遮挡掩膜相关的关键对象属性。参考文献 [13] 提出在网络上的存储库中利用 3DCAD 模型，例如 Trimble3D Warehouse，并将这些 3D CAD 模型与 2D 图像一起标注以构建 3D 体素示例。更具体地说，对于训练集中的每个图像，使用从预定义的模型集合中选择的 3D CAD 模型来标记图像中的对象，选择的模型是有与真实 3D 长方体最接近的纵横比的模型。然后使用相机参数将所有标注的 3D CAD 模型投影到图像平面上并获得深度排序掩模。在下文中，深度排序掩模确定投影的 3D CAD 模型的哪个像素是可见的，被遮挡的或截断的。3DVP 表示一组三维体素示例，这些示例共享在其三维体素模型中编码的类似可见性模式。参考文献 [13] 通过在统一的三维空间中聚类三维体素样本来发现 3DVP。有关详细信息，读者可以参考他们的项目网站。

图2. 多任务框架的图示

在 [13] 之后，我们对刚性物体（即 KITTI 中的车辆）采用 3D 体素模式（3DVP）表示，它在聚类过程中共同模拟物体姿态，遮挡和截断。然后每个 3DVP 被认为是一个子类别。图 3 显示了 Kitti 车辆数据集中不同子类别车辆的几个示例。通过这些附加的注释，CNN 模型可以捕获更多关键信息进行检测。如图 2 所示，CNN 模型在 K + 1 个子类别上输出离散概率分布（每个 RoI），p =（p 0，...，p K）。与往常一样，p 是由一个全连接层的 k+1 个输出上的 softmax 计算的。因此，子类别分类的损失公式为 Lsub(p,u) = logpu，它是真实分类 u 类的对数损失。

图 3.每一列为一个子分类

此外，我们发现预测 RoI 与相应的标注过的数据之间的重叠对其他任务是有益的。对于重叠回归，我们使用下列方程中的损失。

其中

是一种强大的 L1 损耗，其对异常值的敏感性低于 L2 损耗，这需要仔细调整学习速率以防止爆炸梯度。Op 表示由 CNN 模型预测的重叠，并且根据 ROI 和标注过的数据计算 Og。

总结，整个多任务框架的损失可以表述为：

上式中的超参数 λ1，λ2，λ3 用于控制四个任务损失之间的平衡。我们在验证数据集上调整了这些超参数。具体地，在实验中将 λ1，λ2，λ3 设定为 1，10，1.2。

感兴趣的区域投票

我们观察到检测分数不能很好地表示有界区域的可靠性或置信度。在 [14] 中，作者还认为，高于某一水平的检测分数与与框提议的最优性没有很大关系。实际上这并不奇怪，因为分类器被训练为从背景中分类对象而不是对 IoU 进行排序。另外，预测框的分数由 RoI 的卷积特征计算，其与回归框略有不同，这也是值得怀疑的。为了解决这个问题，我们使用邻近的 RoI 来优化其得分。首先，我们使用 CNN 模型同时预测从每个 RoI 边界到标注过的数据边界的偏移方向。然后我们可以得到四个变量来指示实际的方向。在我们的方法中，我们分别用 D l，D t，D r，D d 表示这四个变量，分别用于 RoI 的左边界，顶边界，右边界和下边界。例如，D l的可能预测如下：「向左转」，「向右转」，「在此处停止」和「此 RoI 周围没有实例」。对于 D t，「上升」，「下降」，「在此处停止」和「此 RoI 周围没有实例」是可能的训练标签。这些标签可以根据 ROI 的位置和训练前的地面实况来计算。

如前所述，我们使用多尺度 RPN 模型来生成数千个对象提议。利用所提出的多任务 CNN 框架，预测每个 RoI 的边界框偏移，得分和方向。然后结合每个 ROI 的坐标和相应的框偏移量，我们可以得到大量的预测框，这比实际的图像中的物体数量大得多。因此，我们将一个图像中的所有预测框分成组，每组对应一个对象。分组方案简单如下：我们选择具有最高分数的预测框作为种子，并将具有高 IoU 的框与种子放入一个组中。此过程将迭代，直到分配了所有框。该方案在物体检测中很常见 [5]，[7]，[8]，[29]。我们的目标是为每个组找到最佳对象预测框。以前的方法直接选择具有最高预测分数的预测框。

在这里，我们利用来自每个预测框的相邻 RoI 的附加信息来优化分数。如果预测框的位置与其相邻 RoI 的预测方向一致，则该预测框更可靠。否则，应减少预测框的最终得分。为清晰起见，假设预测框具有坐标和得分 s。并且我们用 B 表示它的相邻 RoI，用 N 表示 B 中 RoI 数量，用 si 表示的第 i 个 RoI 的得分，用表示预测方向。然后我们制定投票方案，如下所示：

其中

其他 r b（b,b i）函数遵循与 r l（b,b j）相同的规则。在所有预测框的得分重新计算后，我们可以应用 NMS 得到最终的结果。

这种 RoI 投票方法有几个优点。首先，不同于被训练以从背景中对对象进行分类而不是对 IoU 进行排名的类别分类器，我们的 RoI 投票方法预测朝向标注过的数据的偏移方向，这对于位置是合理的。此外，该 RoI 投票方法利用来自相邻 RoI 的统计信息，这使得结果更加稳健和可靠。其次，与基于 CNN 的回归任务解决检测问题的方法相比，我们的方法采用了更加文件的分类模型，既简单又有效。CNN 模型在分类任务上通常比回归任务取得更好的性能 [49]。由于具有 softmax 损失的偏移方向的分类使得模型在真实方向上最大限度地激活，而不是在边界框坐标的精确值上激活。此外，预测朝向标注过的数据的方向可以作为多任务框架的一部分来实现，这不会给计算带来额外的负担。

多级定位

在 Fast RCNN [29] 等常见的目标检测流程中，我们发现了两个缺点。首先，由于许多检测基准要求 IOU 超过 0.7 才能评估正确的定位，因此区域生成网络 [8] 经常无法达到 100% 的召回率。这将对以下检测网络构成挑战，因为它必须在没有高质量建议的情况下处理一些困难的案例。其次，在快速的 R-CNN 中，用于进行 NMS 的提案的分数不准确，因为它们在回归前采用了特征。这两个因素将降低这些检测器在实际车辆检测任务中的性能。因此，我们引入了一个多层次的定位框架，以粗到细的方式解决这两个问题。具体来说，我们的定位方案从区域生成网络 [8] 开始，通过迭代评分和细化它们的坐标来工作。在这里，我们实施了一个两阶段方案。首先，我们将所有与标注过的数据重叠大于 0.5 的提案作为培训第一阶段回归网络的正样本。由于我们发现 RPN 在直接使用 0.7 时未能召回所有车辆，而在 0.5 时所有车辆都有正面建议。在测试阶段，该回归网络可以将召回率从 97.8％提高到 98.9％。在第二阶段，我们使用来自第一阶段的预测边界框来训练第二级目标检测网络，使用与标注过的数据重叠大于 0.7 的建议作为阳性样本。在这个阶段，大多数车辆都有高质量的建议，这使得回归任务相对容易。此外，我们发现第一级网络的输出提供了强有力的建议，使第二网络产生更准确的定位。另外，由第二网络计算的边界框偏移通常很小，这使得预测框的得分更准确。

（a）原始图像（b）NMS 之前的部分车辆检测结果

考虑到速度，我们对所有提案进行一级定位，并选择其中的一部分进行二级定位。选择的规则是：如果一个提案与预测框有很大的重叠，我们将不会进行第二次定位。我们认为，如果重叠度很大，评分是准确的，提案不需要再次回归。在实验部分，我们将此阈值设置为 0.9。在多级定位之后，我们获得了一系列检测结果，这些检测结果都具有高召回率和准确定位。我们考虑重用卷积层功能来进行多级定位。但是，性能增益并不令人满意。因此，对于第二阶段，我们训练一个新的回归网络。我们采用这种设计是因为我们希望通过相应边界框的卷积特征尽快准确地计算提案的分类分数。

子类别的NMS

在复杂的交通场景中，遮挡使得车辆检测非常具有挑战性。例如，图 4 中的蓝色圆圈中有两辆汽车彼此靠近，它们的 IOU 大于 0.7。虽然我们之前的管道可以检测到它们的位置并为它们分配高分，但标准的后处理步骤 NMS 将过滤其中一个分数较低的边界框。如果我们将 NMS 的阈值设置得更高，则可以保留两个边界框。

但是，检测结果的精度会非常低。为了解决这个难题，我们引入了子类别的 NMS（subNMS）方法。在我们的多任务框架中，我们可以获得子类别信息。由于蓝色圆圈中的两辆车属于不同的子类别，我们的 subNMS 利用级联管道。首先，我们为属于同一子类别的边界框执行标准 NMS，其严格阈值为 0.5。然后，NMS 将处理所有边界框，其阈值为 0.75。通过所提出的 subNMS，检测结果的精确度和召回率可以达到平衡。

实施细节

我们的框架是使用 caffe[50] 实现的，运行在配置了 Nvidia M40 GPU 卡的工作站上。我们不从零开始培训我们的 RPN 和检测 CNN，而是应用在 ImageNet [22] 上预训练的模型来初始化卷积层和前两个全连接层，然后对整个网络进行微调。在 KITTI 基准测试中，我们对第一级定位的 AlexNet [22] 和第二级定位的 GoogleNet [51] 进行了微调。

为了解决尺度的变化，我们使用多尺度方式来训练第一级定位。由于 GPU 内存限制，我们无法直接培训多尺度 GoogleNet 检测网络。因此，我们独立裁剪和调整 RoI，不在同一输入图像中共享卷积计算。用于多任务学习的全连接层分别由标准差为 0.01 和 0.001 的零平均高斯分布初始化。偏差初始化为 0。所有层对权重使用 1 的每层学习率，对偏差使用 2 的每层学习率，全局学习率为 0.001。在对 KITTI 训练数据集进行训练时，我们运行 SGD 进行 30k 小批量迭代，然后将学习率降低到 0.0001 并训练另外 10k 次迭代。学习在 40,000 次迭代后停止，并且在学习期间，将 conv1-1 到 conv2-2 的层参数固定，以实现更快的训练。

在对 VOC07 trainval car 数据集进行训练时，我们运行 SGD 进行 8K 小批量迭代，然后将学习率降低到 0.0001，再进行 2K 迭代培训。使用 0.9 的动量和 0.0005 的参数衰减（基于权重和偏差）。

4.实验

在本节中，我们在两个公共数据集上评估我们的方法：KITTI 车辆检测基准 [2] 和 PASCAL VOC2007 汽车数据集 [1]。

KITTI验证集的实验

KITTI 数据集由 7481 个训练图像和 7518 个测试图像组成。训练中的物体总数达到 51867，其中汽车仅占 28742。KITTI 汽车检测任务的关键难点在于大量汽车尺寸较小（高度<40 像素）并且被遮挡。

由于 KITTI 测试集的基本真实注释不公开，我们使用 [46] 的训练/验证分割来对我们的框架进行分析，其中分别包含 3682 个图像和 3799 个图像。对于 KITTI 的验证，我们使用 125 个子类别（125 个 3DVP 用于汽车），而对于 KITTI 的测试，我们使用 227 个子类别（227 个 3DVP 用于汽车）。关于子类别的数量，我们遵循 [13] 中的配置。3DVP 是一种数据驱动方法，子类别的数量是聚类算法中使用的一个超参数。对于验证数据集，仅使用训练数据集来发现 3DVP 模式。对于测试数据集，训练数据集和验证数据集的结合更加复杂，所以子类别的数量更多。

图 5 检测成功和失败案例示例（绿色框表示正确定位，红色框表示错误报警蓝色框表示检测缺失）

我们根据 KITTI 基准 [2] 建议，在三个难度级别（简单，适度和难度）上评估我们的识别结果。为了评估物体检测精度，在整个实验中报告平均精度（AP）。

汽车的 KITTI 基准采用 0.7 重叠阈值。表 I 显示了三个类别的检测结果，其中我们证明了各种组分对 KITTI 的 RV-CNN 性能的影响。从表 I 可以看出，多任务学习，RoI 投票和多层次本地化的组成部分都是有效的设计。对于那些中等和难度级别的汽车，我们的方法可以通过更多组件实现更好的性能。

图 6.在 KITTI 验证集上的不同 IOU 阈值下的 AP 曲线

表 1

为了展示我们方法的稳健性，我们给出了图 6 中不同 IOU 阈值下的 AP。此外，图 5 显示了我们在 KITTI 验证数据集上的检测结果的一些示例。我们可以看到，检测中失败的大多是那些难以看到的被遮挡的汽车。将来，我们需要将 CNN 模型与一些遮挡推理机制相结合，以更好地处理这些困难案例。

KITTI测试集的实验

为了与 KITTI 检测基准的最新方法进行比较，我们使用所有 KITTI 训练数据训练我们的 RPN 和 RV-CNN，然后将我们的结果提交到官方网站，在 KITTI 测试集上测试我们的方法。

表 2 列出了三类检测结果，我们将我们的方法（RV-CNN）与 KITTI 评估的不同方法进行了比较。这些结果是在 2017 年 3 月提取的。最近，评估脚本已经更改，并提供了原始结果。我们的方法在基于中等难度结果的所有已发布方法中排名第一。实验结果证明了我们的 CNN 能够处理具有更多遮挡和截断的车辆。图 7 给出了中等类别的 KITTI 测试装置的精确召回曲线。

图 7.中等难度结果的 KITTI 测试集的精确召回曲线，没有方法描述的匿名提交将被忽略

表 2

VOC Pascal 2007车辆数据集的实验

我们还将我们方法与几个竞争模型：DPM [5]，RCNN [7]，快速 RCNN [29] 和更快的 RCNN [8] 在另一个公共数据集上进行了比较：PASCAL VOC2007 汽车数据集 [1]。这些方法在一般物体检测方面获得了最先进的性能，并且这些代码是公开可用的。

图 8.PASCAL2007 汽车数据集上的精确召回曲线

我们在 VOC-RELEASE5 [65] 中采用训练好的车辆模型用于 DPM，而基于 CNN 的其他模型和我们的方法则基于预训练的 VGG16 模型。提取 PASCAL VOC 2007 数据集中的训练集和测试集（总共 1434 个图像）中包含的所有图像以进行评估。

汽车检测评估标准与 PASCAL 目标检测相同。联合交叉（IoU）设置为 0.7 以确保定位正确。图 8 显示了 PASCAL VOC2007 汽车测试集的精确召回曲线。由于 3DVP 需要标注过的数据 3D 注释（立方体）和相机参数，我们没有找到 PASCAL VOC 的这些标签。因此，我们删除了 PascalVOC 数据集实验中的子类别分类任务。APS 分别为 63.91%（我们的模型）、38.52%（RCNN）、52.95%（快速RCNN）、59.82%（快速 RCNN）和 57.14%（DPM）。尽管这个数据非常小，但我们的方法依旧胜过了其他方法。

5.结论

在本文中，我们开发了一种基于多任务深度卷积神经网络（CNN）和感兴趣区域（RoI）投票的新型车辆检测方案。KITTI 和 PASCAL2007 汽车数据集的实验结果表明，我们的方法优于大多数现有的车辆检测框架。在未来，我们将探索一个更有效的投票机制的端到端框架。此外，我们希望将 CNN 模型与一些遮挡推理方法相结合，以更好地处理这些困难案例。

来源：同济智能汽车研究所感知前沿研究组

原文：Multi-Task Vehicle Detection With Region-of-Interest Voting

链接：https://ieeexplore.ieee.org/document/8066331/

编辑：小二

入群：加微信号 autoHS，入厚势汽车科技群与行业专家讨论更多自动驾驶行业信息

-END-