ECCV 2018 | 旷视科技Oral论文解读：IoU-Net让目标检测用上定位置信度

2018 年 8 月 1 日 机器之心

选自arXiv

作者：Borui Jiang、Ruixuan Luo等

机器之心编译

参与：Panda

目标检测涉及到目标分类和目标定位，但很多基于 CNN 的目标检测方法都存在分类置信度和定位置信度不匹配的问题。针对这一问题，一种称之为 IoU-Net 的目标检测新方法被提出，在基准方法的基础上实现了显著的提升。该论文已被将于当地时间 9 月 8-14 日在德国慕尼黑举办的 ECCV 2018 接收为口头报告。此外，该论文的三位并列一作是在旷视科技实习期间完成并提交的这篇论文。

论文：Acquisition of Localization Confidence for Accurate Object Detection

论文地址：https://arxiv.org/abs/1807.11590
代码地址：https://github.com/vacancy/PreciseRoIPooling

摘要：现代基于 CNN 的目标检测器依靠边界框回归和非极大抑制（NMS）来定位目标，其对类别标签的预测概率可以天然反映每个框的分类置信度，然而对框的定位置信度却缺失了。这使得原本定位准确的边界框会在迭代回归的过程中偏离目标，又或甚至在 NMS 过程中受到抑制。研究者在本文中提出 IoU-Net，可学习预测每个检测得到的边界框和与之匹配的目标之间的 IoU 作为该框的定位置信度。利用这种定位置信度，检测器能确保定位更准确的边界框在 NMS 过程中被保留下来，从而改进了 NMS 过程。此外，将预测得到的 IoU 作为优化目标，一种基于优化的边界框修正方法也同时被提出。研究者在 MS-COCO 数据集上进行了大量实验，结果证明了 IoU-Net 的有效性，并且还表明其能够轻松地集成并提高包括 Faster R-CNN、FPN、Cascade R-CNN 等多种当前最佳的目标检测器。

1 引言

目标检测是很多下游视觉应用的前提基础，比如实例分割 [19,20]、人体骨架绘制 [27]、人脸识别 [26] 和高级目标推理 [30]。它结合了目标分类和目标定位两个任务。现代大多数目标检测器的框架是 two-stage [9,8,22,16,10]，其中目标检测被定义为一个多任务学习问题：1）区分前景物体框与背景并为它们分配适当的类别标签；2）回归一组系数使得最大化检测框和目标框之间的交并比（IoU）或其它指标。最后，通过一个 NMS 过程移除冗余的边界框（对同一目标的重复检测）。

在这样的检测流程中，分类和定位被用不同的方法解决。具体来说，给定一个提议框（proposal），每个类别标签的概率可自然而然地用作该提议的「分类置信度」，而边界框回归模块却只是预测了针对该提议框的变换系数，以拟合目标物体的位置。换而言之，在这个流程缺失了「定位置信度」。

定位置信度的缺失带来了两个缺点。（1）首先，在抑制重复检测时，由于定位置信度的缺失，分类分数通常被用作给检测框排名的指标。在图 1(a) 中，研究者展示了一组案例，其中有更高分类置信度的检测框却与其对应的目标物体有更小的重叠。就像 Gresham 著名的「劣币驱逐良币」理论一样，分类置信度和定位准确度之间的不匹配可能会导致定位更准确的边界框在 NMS 过程中反而被更不准确的边界框抑制了。（2）其次，缺乏定位置信度使得被广泛使用的边界框回归方法缺少可解释性或可预测性。举个例子，之前的研究 [3] 报告了迭代式边界框回归的非单调性。也就是说，如果多次应用边界框回归，可能有损输入边界框的定位效果（见图 1(b)）。

图 1：由缺乏定位置信度所造成的两个缺点的图示。这些示例选自 MS-COCO minival [17]。（a）分类置信度和定位准确度不对齐的示例。黄框表示真实目标框，红框和绿框都是 FPN [16] 所得到的检测结果。定位置信度是由研究者提出的 IoU-Net 计算得到的。使用分类置信度作为排名指标，会导致定位更准确的边界框（绿框）在传统的 NMS 流程被错误地删去。2.1 节提供了定量分析。（b）在迭代式边界框回归中非单调定位的示例。2.2 节提供了定量分析。

研究者在这篇论文中引入了 IoU-Net，其能预测检测到的边界框和它们对应的真实目标框之间的 IoU，使得该网络能像其分类模块一样，对检测框的定位精确程度有所掌握。这种简单的预测 IoU 值能为研究者提供前述问题的新解决方案：

1.IoU 是定位准确度的一个天然标准。研究者可以使用预测得到的 IoU 替代分类置信度作为 NMS 中的排名依据。这种技术被称为 IoU 引导式 NMS（IoU-guided NMS），可消除由误导性的分类置信度所造成的抑制错误。

2. 研究者提出了一种基于优化的边界框修正流程，可与传统的基于回归的边界框修正方法分庭抗礼。在推理期间，预测得到的 IoU 可用作优化目标，也可作为定位置信度的可解释性指示量。研究者提出的精准 RoI 池化层（Precise RoI Pooling layer）让研究者可通过梯度上升求解 IoU 优化。研究者表明，相比于基于回归的方法，基于优化的边界框修正方法在实验中能实现定位准确度的单调提升。这种方法完全兼容并可整合进各种不同的基于 CNN 的检测器 [16,3,10]。

边界框修正示例：上行是传统方法的结果，下行是本文提出方法的结果。

2 深入目标定位

2.1 分类准确度和定位准确度不匹配

图 2：边界框与其对应目标框的 IoU 与分类/定位置信度之间的关系。对那些与目标框的 IoU 高于 0.5 的检测框，其 Pearson 相关系数为 (a) 0.217 和 (b) 0.617。（a）分类置信度表示了一个边界框的类别，但不能被解读成定位准确度。（b）为了解决这个问题，研究者提出了 IoU-Net 来预测每个检测到的边界框的定位置信度，即其与对应的目标框的 IoU。

图 3：经过 NMS 之后得到的正例边界框的数量，根据它们与对应的目标框之间的 IoU 分组。在传统 NMS 中（蓝色条形图），定位准确的边界框中有很大一部分会被错误抑制，这是由分类置信度和定位准确度之间的不匹配造成的，而 IoU 引导式 NMS（黄色条形图）则能保留定位更准确的边界框。

2.2 非单调边界框回归

图 4：基于优化的与基于回归的 BBox 优化。（a）在 FPN 中比较。当迭代式地应用回归时，检测结果的 AP（平均精度）首先会提升，但会在之后的迭代中快速降低。（b）在 Cascade R-CNN 中比较。迭代 0、1、2 表示 Cascade R-CNN 中的第 1、2、3 个回归阶段。在多轮回归之后，AP 稍有下降，而基于优化的方法则进一步将 AP 提高了 0.8%。

3 IoU-Net

为了定量地分析 IoU 预测的有效性，研究者首先在 3.1 节提出了用于训练 IoU 预测器的方法。在 3.2 和 3.3 节，研究者分别展示了如何将 IoU 预测器用于 NMS 和边界框修正的方法。最后在 3.4 节，研究者将 IoU 预测器整合进了 FPN [16] 等现有的目标检测器中。

3.1 学习预测 IoU

图 5：研究者提出的 IoU-Net 的完整架构，详见 3.4 节。输入图像首先输入一个 FPN 骨干网络。然后 IoU 预测器读取这个 FPN 骨干网络的输出特征。研究者用 PrRoI 池化层替代了 RoI 池化层，详见 3.3 节。这个 IoU 预测器与 R-CNN 分支有相似的结果。虚线框内的模块能构成一个单独的 IoU-Net。

3.2 IoU 引导式 NMS

算法 1：IoU 引导式 NMS。在这个算法中，分类置信度和定位置信度是解开的（disentangled）。研究者使用定位置信度（预测得到的 IoU）来给所有被检测到的边界框排名，然后基于一个类似聚类的规则来更新分类置信度。

3.3 将边界框修正当作是一个优化过程

算法 2：基于优化的边界框修正

精准 RoI 池化（Precise RoI Pooling）

研究者引入了精准 RoI 池化（简写成：PrRoI 池化）来助力研究者的边界框修正。其没有任何坐标量化，而且在边界框坐标上有连续梯度。给定 RoI/PrRoI 池化前的特征图 F（比如，来自 ResNet-50 中的 Conv4），设 wi,j 是该特征图上一个离散位置 (i,j) 处的特征。使用双线性插值，这个离散的特征图可以被视为在任意连续坐标 (x,y) 处都是连续的：

其中，是插值系数。然后将 RoI 的一个 bin 表示为，其中 (x_1,y_1) 和 (x_2,y_2) 分别是左上角和右下角的连续坐标。给定 bin 和特征图 F，研究者通过计算一个二阶积分来执行池化（比如平均池化）：

为更便于理解，研究者在图 6 中可视化了 RoI 池化、RoI Align [10] 和研究者的 PrRoI 池化：在传统的 RoI 池化中，连续坐标首先需要被量化（quantization），以计算该 bin 中激活的和；为了消除量化误差，在 RoI Align 中，会采样该 bin 中 N=4 个连续点，表示成 (a_i,b_i)，而池化就是在这些采样的点上执行的。RoI Align 中的 N 是预定义的，而且不能根据 bin 的大小进行调整；与此不同，研究者提出的 PrRoI 池化是直接基于连续特征图计算二阶积分。

图 6：RoI 池化、RoI Align 和 PrRoI 池化的图示

3.4 联合训练

这种 IoU 预测器可集成到标准的 FPN 流程中，以进行端到端的训练和推理。为了清楚说明，研究者将用于图像特征提取的 CNN 架构称为骨干（backbone），将应用于各个 RoI 的模块称为头（head）。

如图 5 所示，这个 IoU-Net 使用了 ResNet-FPN [16] 作为骨干网络，其架构是自上而下的，可构建特征金字塔（feature pyramid）。FPN 能根据 RoI 的特征的比例从这个特征金字塔的不同层级提取这些 RoI 的特征。其中原来的 RoI 池化层被换成了精准 RoI 池化层。至于该网络的头，这个 IoU 预测器根据来自骨干网络的同一视觉特征而与 R-CNN 分支（包括分类和边界框回归）并行工作。

研究者根据在 ImageNet [25] 上预训练的 ResNet 模型初始化了权重。所有新的层都使用了标准差为 0.01 或 0.001 的零均值高斯分布进行初始化。研究者使用了平滑 L1 损失来训练 IoU 预测器。IoU 预测器的训练数据是在一个训练批中的图像中单独生成的，详见 3.1 节。IoU 标签进行了归一化，因此其值分布在 [-1,1]。

输入图像的大小进行了调节，短边长度为 800 像素，长边长度最大为 1200 像素。分类和回归分支取来自 RPN 的每张图像 512 RoI。研究者使用了 16 的批大小进行训练。网络为 16 万次迭代进行了优化，学习率设置为 0.01，并在 12 万次迭代后减小 10 倍。研究者还为前 1 万次迭代设置了 0.004 的学习率以进行预热。研究者使用了 1e-4 的权重衰减和 0.9 的 momentum.

在推理过程中，研究者首先对初始坐标应用边界框回归。为了加快推理速度，研究者首先在所有检测到的边界框上应用 IoU 引导式 NMS。然后，使用基于优化的算法进一步改进 100 个有最高分类置信度的边界框。研究者设置步长为 λ=0.5，早停阈值为 Ω1=0.001，定位衰减容限 Ω2=−0.01，迭代次数 T=5。

4 实验

研究者在有 80 个类别的 MS-COCO 检测数据集 [17] 上进行了实验。遵照 [1,16]，研究者在 8 万张训练图像和 3.5 万张验证图像的并集（trainval35k）上训练了模型，并在包含 5000 张验证图像的集合（minival）上评估了模型。为验证该方法，在 4.1 节和 4.2 节，研究者与目标检测器分开而训练了一个独立的 IoU-Net（没有 R-CNN 模块）。IoU-Net 助力的 IoU 引导式 NMS 和基于优化的边界框修正被应用在了检测结果上。

4.1 IoU 引导式 NMS

表 1 总结了不同 NMS 方法的表现。尽管 Soft-NMS 能保留更多边界框（其中没有真正的「抑制」），但 IoU 引导式 NMS 还能通过改善检测到的边界框的定位来提升结果。因此，在高 IoU 指标（比如 AP_90）上，IoU 引导式 NMS 显著优于基准方法。

表 1：IoU 引导式 NMS 与其它 NMS 方法的比较。通过保留定位准确的边界框，IoU 引导式 NMS 在具有高匹配 IoU 阈值的 AP（比如 AP_90）上的表现显著更优。

图 7：在匹配检测到的边界框与真实目标框的不同 IoU 阈值下，不同 NMS 方法的召回率曲线。研究者提供了 No-NMS（不抑制边界框）作为召回率曲线的上限。研究者提出的 IoU-NMS 有更高的召回率，并且在高 IoU 阈值（比如 0.8）下能有效收窄与上限的差距。

4.2 基于优化的边界框修正

研究者提出的基于优化的边界框修正与大多数基于 CNN 的目标检测器 [16,3,10] 都兼容，如表 2 所示。将这种边界框修正方法应用在原来的使用单独 IoU-Net 的流程之后还能通过更准确地定位目标而进一步提升表现。即使是对有三级边界框回归运算的 Cascade R-CNN，这种改进方法能进一步将 AP_90 提升 2.8%，将整体 AP 提升 0.8%。

表 2：基于优化的边界框修正能进一步提升多种基于 CNN 的目标检测器的表现。

4.3 联合优化

IoU-Net 可与目标检测框架一起并行地端到端优化。研究者发现，将 IoU 预测器添加到网络中有助于网络学习更具判别性的特征，这能分别将 ResNet50-FPN 和 ResNet101-FPN 的整体 AP 提升 0.6% 和 0.4%。IoU 引导式 NMS 和边界框修正还能进一步提升表现。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP，相比而言基准为 38.5%，提升了 2.1%。表 4 给出了推理速度，表明 IoU-Net 可在计算成本承受范围之内实现检测水平的提升。

表 3：在 MS-COCO 上的最终实验结果。IoU-Net 表示嵌入 IoU 预测器的 ResNet-FPN。在这个 FPN 基准上，研究者实现了约 2% 的 AP 提升。

表 4：多种目标检测器在单个 TITAN X GPU 上得到的推理速度。这些模型都有一样的骨干网络 ResNet50-FPN。输入分辨率为 1200x800。所有超参数设置相同。

5 总结

本文提出一种用于准确目标定位的全新网络架构 IoU-Net。通过学习预测与对应真实目标的 IoU，IoU-Net 可检测到的边界框的「定位置信度」，实现一种 IoU 引导式 NMS 流程，从而防止定位更准确的边界框被抑制。IoU-Net 很直观，可轻松集成到多种不同的检测模型中，大幅提升定位准确度。MS-COCO 实验结果表明了该方法的有效性和实际应用潜力。

从学术研究的角度，本文指出现代检测流程中存在分类置信度和定位置信度不匹配的问题。更进一步，研究者将边界框修正问题重定义为一个全新的优化问题，并提出优于基于回归方法的解决方案。研究者希望这些新视角可以启迪未来的目标检测工作。