【干货】结合单阶段和两阶段目标检测的优势:基于单次精化神经网络的目标检测方法

2018 年 1 月 12 日 专知 专知内容组(编)

【导读】近日,针对目标检测中单阶段和两阶段方法分别存在准确度和速度瓶颈的问题,来自中科院自动化所、中国科学院大学和GE Global Research的学者发表论文提出基于单次精化神经网络的目标检测方法。其方法包括两个互相连接的模块,即锚窗精化模块和目标检测模块。锚窗精化模块旨在过滤不好的目标候选框并粗略的调整锚框位置。目标检测模块通过一个转移连接使用锚窗精化模块中的特征进行最后的检测。在PASCAL VOC 2007,PASCAL VOC 2012和MS COCO上进行的大量实验表明,本文方法能够高效地达到最先进的检测精度。代码已开源。     


论文:Single-Shot Refinement Neural Network for Object Detection


摘要:




对于目标检测,两阶段的方法(例如Faster R-CNN)已达到最高准确度,而单阶段方法(例如SSD)具有高效率的优点。为了继承两者的优点,克服它们的缺点,本文提出了一种称为RefineDet的新型单次检测器,其精度比两个阶段的方法高,并且保持了单阶段方法的高效率。 RefineDet由两个相互连接的模块组成,即锚框精化模块和目标检测模块。具体而言,前者旨在

(1)滤除不合适的锚框以减少分类器的搜索空间

(2)粗略地调整锚框的位置和大小为随后的回归器提供更好的初始化。


后一模块将精化的锚框作为前者的输入,进一步改进回归和预测多类标签。同时,作者设计了一个转移连接块来转移锚框精化模块中的特征,以预测目标检测模块中物体的位置、大小和类别标签。 多任务损失函数使本文能够以一种端到端的方式来训练整个网络。 在PASCAL VOC 2007,PASCAL VOC 2012和MS COCO上进行的大量实验表明,RefineDet能够高效地达到最先进的检测精度。代码可在https://github.com/sfzhang15/RefineDet 获取。


引言:




近年来,随着深度神经网络(DNN)的发展,目标检测已经取得了显着的进展。 现有的DNN检测器可以分为两类:

(1)两阶段方法

(2)单阶段方法


在两阶段方法中,首先生成一组稀疏的候选目标框,然后对它们进行进一步的分类和回归。两个阶段的方法已经在几个具有挑战性的基准数据集上取得了最佳表现,包括PASCAL VOC和MS COCO等。


单阶段方法通过对位置,尺度和长宽比进行规则和密集采样来检测目标。这样做的主要优点是计算效率高。但是,它的检测精度通常落后于两阶段的方法,其中一个主要原因是由于类别失衡问题。


单阶段方法中的一些最近的方法旨在解决类别不平衡问题,以提高检测精度。 Kong等人使用卷积特征的目标性先验约束来显著减少目标的搜索空间。Lin等人通过重塑标准的交叉熵损失来解决类别失衡的问题,从而把训练集中在一些稀疏的例子上,降低分配给容易分类样本的损失。Zhang等人设计了一个max-out标签机制,以减少类别不平衡造成的错误判断.


图1:RefineDet的体系结构。 为了更好的可视化,只显示用于检测的图层。 青瓷平行四边形表示与不同的特征层关联的精致的锚框。 星星代表中心定义的锚框,这是不经常显示在图像上。


在作者看来,当前最先进的两阶段方法,比如FasterR-CNN,R-FCN 和FPN ,比单阶段方法有三个优点,具体如下:

(1)采用基于采样启发式的两阶段结构处理类别失衡; 

(2)使用两步级联来回归目标框参数; 

(3)使用两阶段特征来描述目标。


在这项工作中,本文设计了一个新颖的目标检测框架,称为RefineDet,继承了两种方法(即单阶段和两阶段方法)的优点并克服了其缺点。 它通过使用两个互连模块(见图1),即锚框细化模块(ARM)和目标检测模块(ODM),改进了单阶段方法的架构。具体而言,ARM被设计为(1)识别并移除负锚框以减小分类器的搜索空间,以及(2)粗略地调整位置和锚框的尺寸以为随后的回归器提供更好的初始化。 ODM以精化后的锚框作为输入,进一步提高回归和预测多类标签。 如图1所示,这两个互连模块模仿两级结构,从而继承了上述三个优点,以高效率产生精确的检测结果。另外,本文设计了一个传输连接模块(TCB)来传输ARM中的特征用以预测ODM中目标的位置、大小和类别标签。 多任务损失函数使本文能够以一种端到端的方式来训练整个网络。


在PASCAL VOC 2007,PASCAL VOC 2012和MS COCO基准数据集的大量实验表明,RefineDet优于最先进的方法。具体来说,在VGG-16网络上,VOC 2007和2012的mAP达到85.8%和86.8%。 同时,它胜过了之前公布的单阶段和两阶段方法的最好结果,采用ResNet-101在MS COCO test-dev上实现41.8%AP的。 另外,RefineDet的时间效率高,当输入尺寸为320×320和512×512时,在NVIDIA Titan X GPU上的运行速度为40.2 FPS和24.1 FPS。


这项工作的主要贡献总结如下。

(1)引入了一个由两个互连模块组成的新型单阶段目标检测框架,即ARM和ODM。 这导致性能比两阶段方法更好,同时保持单阶段方法的高效率。

(2)为了保证有效性,作者设计了TCB来传递ARM中的特征,以处理更具挑战性的任务,即在ODM中预测准确的目标位置,尺度和类别标签。

(3)RefineDet达到最新的通用目标检测成果(即PASCAL VOC 2007 ,PASCAL VOC 2012 和MS COCO )。

 

模型简介:




RefineNet的损失函数分为两个部分,即ARM部分的loss和ODM部分的loss。对于ARM,作者对每个锚框赋予一个二值类别标签(是否是物体)并回归其位置得到精化的锚框。在此之后,负置信度小于一定阈值的锚框送到ODM来进一步预测类别和准确的目标位置和尺度。根据上述定义,损失函数如下:

这里p,x,c,t分别表示第i个锚框的物体性概率、精化后的坐标、预测的类别标签和最终预测的坐标。


实验结果



 

表1是在 PASCAL VOC dataset上检测结果


表2是在MS COCO test-dev set的检测结果。


表3是不同设计的效果


表4为在PASCAL VOC dataset的检测结果。


图3为RefineDet512在PASCAL VOC 2007 test set的结果。


图4为RefineDet512PASCAL VOC 2012 test set的结果。


图5为RefineDet512MS COCO test-dev set的结果。


结论:



 

在本文中,作者提出了一个基于单阶段神经网络的检测器,它由两个相互连接的模块组成,即ARM和ODM。ARM旨在过滤出负锚框以减少分类器的搜索空间,并且粗略地调整锚框的位置和大小,以便为后续的回归器提供更好的初始化,而ODM则将精细的锚框作为的输入来回归准确的目标位置和尺度,并预测相应的多类标签。整个网络都是基于多任务损失进行端到端的训练。作者对PASCAL VOC 2007,PASCAL VOC 2012和MS COCO数据集进行了多次实验,证明了RefineDet能够高效地达到最先进的检测精度。未来,作者计划使用RefineDet来检测其他特定类型的目标,例如行人,车辆和面部,并在RefineDet中引入注意机制进一步提高性能。


参考链接:

https://arxiv.org/abs/1711.06897

https://github.com/sfzhang15/RefineDet

-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

同时欢迎各位用户进行专知投稿,详情请点击

诚邀】专知诚挚邀请各位专业者加入AI创作者计划了解使用专知!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!

点击“阅读原文”,使用专知

登录查看更多
12

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
深度学习目标检测方法及其主流框架综述
专知会员服务
147+阅读 · 2020年6月26日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
118+阅读 · 2020年6月26日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
专知会员服务
31+阅读 · 2020年4月24日
专知会员服务
161+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack
专知会员服务
44+阅读 · 2020年4月10日
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
从锚点到关键点:目标检测方法最新进展(2019)
GAN生成式对抗网络
14+阅读 · 2019年8月22日
目标检测技术二十年综述
计算机视觉life
20+阅读 · 2019年5月28日
FCOS: 最新的one-stage逐像素目标检测算法
极市平台
15+阅读 · 2019年4月14日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
干货 | 深度学习时代的目标检测算法
AI科技评论
6+阅读 · 2018年3月6日
基于深度学习的图像目标检测(下)
机器学习研究会
12+阅读 · 2018年1月1日
Arxiv
5+阅读 · 2019年4月8日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Auto-Context R-CNN
Arxiv
4+阅读 · 2018年7月8日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
4+阅读 · 2017年11月14日
VIP会员
相关VIP内容
深度学习目标检测方法及其主流框架综述
专知会员服务
147+阅读 · 2020年6月26日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
118+阅读 · 2020年6月26日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
专知会员服务
31+阅读 · 2020年4月24日
专知会员服务
161+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack
专知会员服务
44+阅读 · 2020年4月10日
相关资讯
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
从锚点到关键点:目标检测方法最新进展(2019)
GAN生成式对抗网络
14+阅读 · 2019年8月22日
目标检测技术二十年综述
计算机视觉life
20+阅读 · 2019年5月28日
FCOS: 最新的one-stage逐像素目标检测算法
极市平台
15+阅读 · 2019年4月14日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
干货 | 深度学习时代的目标检测算法
AI科技评论
6+阅读 · 2018年3月6日
基于深度学习的图像目标检测(下)
机器学习研究会
12+阅读 · 2018年1月1日
相关论文
Arxiv
5+阅读 · 2019年4月8日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Auto-Context R-CNN
Arxiv
4+阅读 · 2018年7月8日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
4+阅读 · 2017年11月14日
Top
微信扫码咨询专知VIP会员