学界 | 旷视&清华大学提出新型两步检测器Light-Head R-CNN

2017 年 11 月 24 日 机器之心

选自arXiv

机器之心编译

参与：路雪、刘晓坤

近日，来自旷视和清华的研究者提出一种新型两步检测器 Light-Head R-CNN，改变两步检测器头重脚轻（heavy-head）的设计，实现速度和准确率的双重突破。

近期基于 CNN 的目标检测器可以分为一步检测器和两步检测器。一步检测器通常聚焦于快速、高准确率地检测最佳点（sweet-spot）。两步检测器将任务分为两步：第一步（检测器体/body）生成多个 proposal，第二步（检测器头/head）识别 proposal。通常情况下，为了达到最高准确率，头的设计比较复杂。两步检测器检测最佳点通常速度较慢，但是准确率很高。

两步检测器（two-stage detector）可以在效率和准确率方面都战胜一步检测器吗？来自旷视和清华的研究者发现典型的两步检测器如 Faster R-CNN [5] 和 R-FCN [17] 具备相同的特征：与主干网络连接的检测器头比较重（heavy head）。例如，Faster R-CNN 在 ResNet 第 5 阶段中部署两个大型全连接层或所有卷积层用于每个 RoI（感兴趣区域）识别和回归。每个区域的预测都很耗时，当使用大量 proposal 时，需要的时间就更多。此外，RoI pooling 之后的特征通道很多，使得第一个全连接层消耗大量内存，影响计算速度。与多次应用每个区域子网络的 Fast/Faster R-CNN 不同，基于区域的全卷积网络（R-FCN）[17] 尝试在所有 RoI 中共享计算。但是，R-FCN 需要使用 #classes × p × p（p 是随后的池化规模）通道生成非常大的额外得分图（score map），这同样需要大量内存和时间。Faster R-CNN 或 R-FCN 的重头设计使得在使用小的主干网络时两步检测器的竞争力较弱。

这篇论文提出一种轻量级检测器头设计以构建一个高效、准确率高的两步检测器。具体来说，使用一个大内核可分卷积和少量通道（实验中使用的是α × p × p，且α ≤ 10）生成稀疏的特征图。该设计的计算量使随后的 RoI 子网络计算量大幅降低，检测系统所需内存减少。将一个廉价的全连接层附加到池化层上，充分利用分类和回归的特征表示。

因其轻量级头部结构，该检测器能够实现速度和准确率之间的最优权衡，不管使用的是大主干网络还是小主干网络。如图 1 所示，该论文中的算法（Light-Head R-CNN）显著优于快速的一步检测器，如 SSD [22] 和 YOLOv2 [27]。此外，该算法还很灵活，适用于大型主干网络。基于 ResNet-101 主干网络，该算法优于顶尖的算法，包括两步检测器如 Mask R-CNN [7] 和一步检测器如 RetinaNet [20]。

图 1. Light Head R-CNN 与之前的一步、两步检测器的对比。研究者展示了在不同主干网络上的结果。由于设计理念更好，Light Head R-CNN 显著优于其他检测器，且能够提供一个新的上包络线。注意：这里使用的所有结果都是使用单尺度训练获取的。多尺度训练结果见表 5。

图 2. 方法概览。Light-Head R-CNN 在 RoI warping 之前使用大型可分卷积构建稀疏的特征图。研究者在 R-CNN 子网络中使用带有 2048 个通道的单个全连接层。由于更稀疏的特征图和廉价的 R-CNN 子网络，整个网络高效且达到很好的准确率。

图 3. 大型可分卷积按顺序执行 k × 1 和 1 × k 卷积层。计算复杂度可以通过 C_mid 和 C_out 进一步进行控制。

图 4. 该网络用于评估稀疏特征图的影响。研究者使该网络和 R-FCN 一样，除了降低用于 PSRoI pooling 的特征图通道。研究者添加额外的全连接层用于最终的预测。

表 4. Light-Head R-CNN 的效果。R-FCN 和 Fast R-CNN 的基线基于设置 L（3.2）。

表 5. 不同大小的单个模型在 COCO test-dev 上的对比。所有实验都使用 Resnet-101 作为基础特征提取器（除了 R-RMI 使用的是 Inception Resnet V2 [33]）。Light-Head R-CNN 达到了最好的准确率，且超过之间的最优准确率。注意： test-dev 的结果与 mini-validation 上的结果有些微不同。「ms-train」代表多尺度训练。

表 7. 高效 Xception，类似 Light-Head R-CNN 检测器的架构。Comp* 指网络的复杂度（浮点）。

表 8. Light-Head R-CNN 检测器与其他检测器在 COCO test- dev 上的结果对比。Xception* 指小的 xception 如主干网络。通过添加一个小的基础模型，Light R-CNN 在准确率和速度上都达到了更好的表现，这表明该设计的灵活性。

论文：Light-Head R-CNN: In Defense of Two-Stage Object Detector

论文地址：https://arxiv.org/pdf/1711.07264.pdf

在这篇论文中，我们首先研究了经典的两步方法慢于一步检测器（如 YOLO 和 SSD）的原因。我们发现 Faster R-CNN 和 R-FCN 会在 RoI warping 之前或之后进行高强度的计算。Faster R-CNN 包含两个全连接层用于 RoI 识别，而 R-FCN 会生成一个大型得分图。因此，这些网络的速度会被架构的 heavy-head（头重脚轻的）设计拖慢速度。即使大量简化了基础模型，计算成本也没有随之显著降低。

我们提出了一种新的两步检测器 Light-Head R-CNN，用于克服当前两步方法的缺陷。在我们的设计中，通过使用一个稀疏的特征图和一个廉价的 R-CNN 子网络（池化和单全连接层），我们把网络的头部尽可能轻量化。我们基于 ResNet-101 的 Light-Head R-CNN 在 COCO 数据集上的性能超过当前最佳的目标检测器，同时保证时间效率。更重要的是，通过简单地用一个小型网络（如 Xception）替换主干网络，Light-Head R-CNN 在 COCO 数据集上获得了 30.7 mmAP 和 102 FPS 的结果，在速度和准确率上显著优于快速的一步检测器（如 YOLO 和 SSD）。模型代码稍后公布。