【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

2018 年 1 月 12 日 专知专知内容组（编）

【导读】近日，针对目标检测中单阶段和两阶段方法分别存在准确度和速度瓶颈的问题，来自中科院自动化所、中国科学院大学和GE Global Research的学者发表论文提出基于单次精化神经网络的目标检测方法。其方法包括两个互相连接的模块，即锚窗精化模块和目标检测模块。锚窗精化模块旨在过滤不好的目标候选框并粗略的调整锚框位置。目标检测模块通过一个转移连接使用锚窗精化模块中的特征进行最后的检测。在PASCAL VOC 2007，PASCAL VOC 2012和MS COCO上进行的大量实验表明，本文方法能够高效地达到最先进的检测精度。代码已开源。

论文：Single-Shot Refinement Neural Network for Object Detection

▌摘要：

对于目标检测，两阶段的方法（例如Faster R-CNN）已达到最高准确度，而单阶段方法（例如SSD）具有高效率的优点。为了继承两者的优点，克服它们的缺点，本文提出了一种称为RefineDet的新型单次检测器，其精度比两个阶段的方法高，并且保持了单阶段方法的高效率。 RefineDet由两个相互连接的模块组成，即锚框精化模块和目标检测模块。具体而言，前者旨在

（1）滤除不合适的锚框以减少分类器的搜索空间

（2）粗略地调整锚框的位置和大小为随后的回归器提供更好的初始化。

后一模块将精化的锚框作为前者的输入，进一步改进回归和预测多类标签。同时，作者设计了一个转移连接块来转移锚框精化模块中的特征，以预测目标检测模块中物体的位置、大小和类别标签。多任务损失函数使本文能够以一种端到端的方式来训练整个网络。在PASCAL VOC 2007，PASCAL VOC 2012和MS COCO上进行的大量实验表明，RefineDet能够高效地达到最先进的检测精度。代码可在https://github.com/sfzhang15/RefineDet 获取。

▌引言：

近年来，随着深度神经网络（DNN）的发展，目标检测已经取得了显着的进展。现有的DNN检测器可以分为两类：

（1）两阶段方法

（2）单阶段方法

在两阶段方法中，首先生成一组稀疏的候选目标框，然后对它们进行进一步的分类和回归。两个阶段的方法已经在几个具有挑战性的基准数据集上取得了最佳表现，包括PASCAL VOC和MS COCO等。

单阶段方法通过对位置，尺度和长宽比进行规则和密集采样来检测目标。这样做的主要优点是计算效率高。但是，它的检测精度通常落后于两阶段的方法，其中一个主要原因是由于类别失衡问题。

单阶段方法中的一些最近的方法旨在解决类别不平衡问题，以提高检测精度。 Kong等人使用卷积特征的目标性先验约束来显著减少目标的搜索空间。Lin等人通过重塑标准的交叉熵损失来解决类别失衡的问题，从而把训练集中在一些稀疏的例子上，降低分配给容易分类样本的损失。Zhang等人设计了一个max-out标签机制，以减少类别不平衡造成的错误判断.

图1：RefineDet的体系结构。为了更好的可视化，只显示用于检测的图层。青瓷平行四边形表示与不同的特征层关联的精致的锚框。星星代表中心定义的锚框，这是不经常显示在图像上。

在作者看来，当前最先进的两阶段方法，比如FasterR-CNN，R-FCN 和FPN ，比单阶段方法有三个优点，具体如下：

（1）采用基于采样启发式的两阶段结构处理类别失衡;

（2）使用两步级联来回归目标框参数;

（3）使用两阶段特征来描述目标。

在这项工作中，本文设计了一个新颖的目标检测框架，称为RefineDet，继承了两种方法（即单阶段和两阶段方法）的优点并克服了其缺点。它通过使用两个互连模块（见图1），即锚框细化模块（ARM）和目标检测模块（ODM），改进了单阶段方法的架构。具体而言，ARM被设计为（1）识别并移除负锚框以减小分类器的搜索空间，以及（2）粗略地调整位置和锚框的尺寸以为随后的回归器提供更好的初始化。 ODM以精化后的锚框作为输入，进一步提高回归和预测多类标签。如图1所示，这两个互连模块模仿两级结构，从而继承了上述三个优点，以高效率产生精确的检测结果。另外，本文设计了一个传输连接模块（TCB）来传输ARM中的特征用以预测ODM中目标的位置、大小和类别标签。多任务损失函数使本文能够以一种端到端的方式来训练整个网络。

在PASCAL VOC 2007，PASCAL VOC 2012和MS COCO基准数据集的大量实验表明，RefineDet优于最先进的方法。具体来说，在VGG-16网络上，VOC 2007和2012的mAP达到85.8％和86.8％。同时，它胜过了之前公布的单阶段和两阶段方法的最好结果，采用ResNet-101在MS COCO test-dev上实现41.8％AP的。另外，RefineDet的时间效率高，当输入尺寸为320×320和512×512时，在NVIDIA Titan X GPU上的运行速度为40.2 FPS和24.1 FPS。

这项工作的主要贡献总结如下。

（1）引入了一个由两个互连模块组成的新型单阶段目标检测框架，即ARM和ODM。这导致性能比两阶段方法更好，同时保持单阶段方法的高效率。

（2）为了保证有效性，作者设计了TCB来传递ARM中的特征，以处理更具挑战性的任务，即在ODM中预测准确的目标位置，尺度和类别标签。

（3）RefineDet达到最新的通用目标检测成果（即PASCAL VOC 2007 ，PASCAL VOC 2012 和MS COCO ）。

▌模型简介：

RefineNet的损失函数分为两个部分，即ARM部分的loss和ODM部分的loss。对于ARM，作者对每个锚框赋予一个二值类别标签（是否是物体）并回归其位置得到精化的锚框。在此之后，负置信度小于一定阈值的锚框送到ODM来进一步预测类别和准确的目标位置和尺度。根据上述定义，损失函数如下：

这里p,x,c,t分别表示第i个锚框的物体性概率、精化后的坐标、预测的类别标签和最终预测的坐标。

▌实验结果

表1是在 PASCAL VOC dataset上检测结果

表2是在MS COCO test-dev set的检测结果。

表3是不同设计的效果

表4为在PASCAL VOC dataset的检测结果。

图3为RefineDet512在PASCAL VOC 2007 test set的结果。

图4为RefineDet512在PASCAL VOC 2012 test set的结果。

图5为RefineDet512在MS COCO test-dev set的结果。

▌结论：

在本文中，作者提出了一个基于单阶段神经网络的检测器，它由两个相互连接的模块组成，即ARM和ODM。ARM旨在过滤出负锚框以减少分类器的搜索空间，并且粗略地调整锚框的位置和大小，以便为后续的回归器提供更好的初始化，而ODM则将精细的锚框作为的输入来回归准确的目标位置和尺度，并预测相应的多类标签。整个网络都是基于多任务损失进行端到端的训练。作者对PASCAL VOC 2007，PASCAL VOC 2012和MS COCO数据集进行了多次实验，证明了RefineDet能够高效地达到最先进的检测精度。未来，作者计划使用RefineDet来检测其他特定类型的目标，例如行人，车辆和面部，并在RefineDet中引入注意机制进一步提高性能。

参考链接：

https://arxiv.org/abs/1711.06897

https://github.com/sfzhang15/RefineDet

-END-

专 · 知

人工智能领域主题知识资料查看获取：【专知荟萃】人工智能领域26个主题知识资料全集（入门/进阶/论文/综述/视频/专家等）

同时欢迎各位用户进行专知投稿，详情请点击：

【诚邀】专知诚挚邀请各位专业者加入AI创作者计划！了解使用专知！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！