目标检测新范式!港大同济伯克利提出Sparse R-CNN,代码刚刚开源!

2020 年 11 月 25 日 CVer

点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

作者:孙培泽等  |  本文系读者投稿,欢迎大家分享优质的工作


本文主要介绍一下我们最近的一篇工作:

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

沿着目标检测领域中Dense和Dense-to-Sparse的框架,Sparse R-CNN建立了一种彻底的Sparse框架, 脱离anchor box,reference point,Region Proposal Network(RPN)等概念,无需Non-Maximum Suppression(NMS)后处理, 在标准的COCO benchmark上使用ResNet-50 FPN单模型在标准3x training schedule达到了44.5 AP和 22 FPS。

代码: https://github.com/PeizeSun/SparseR-CNN

论文链接: 

https://msc.berkeley.edu/research/autonomous-vehicle/sparse_rcnn.pdf

1. Motivation

我们先简单回顾一下目标检测领域中主流的两大类方法。

  • 第一大类是从非Deep时代就被广泛应用的dense detector,例如DPM,YOLO,RetinaNet,FCOS。在dense detector中, 大量的object candidates例如sliding-windows,anchor-boxes, reference-points等被提前预设在图像网格或者特征图网格上,然后直接预测这些candidates到gt的scaling/offest和物体类别。

  • 第二大类是dense-to-sparse detector,例如,R-CNN家族。这类方法的特点是对一组sparse的candidates预测回归和分类,而这组sparse的candidates来自于dense detector。

这两类框架推动了整个领域的学术研究和工业应用。目标检测领域看似已经饱和,然而dense属性的一些固有局限总让人难以满意:

  • NMS 后处理

  • many-to-one 正负样本分配

  • prior candidates的设计

所以,一个很自然的思考方向就是:能不能设计一种彻底的sparse框架?最近,DETR给出了一种sparse的设计方案。candidates是一组sparse的learnable object queries,正负样本分配是one-to-one的optimal bipartite matching,无需nms直接输出最终的检测结果。然而,DETR中每个object query都和全局的特征图做attention交互,这本质上也是dense。而我们认为,sparse的检测框架应该体现在两个方面:sparse candidates和sparse feature interaction。基于此,我们提出了Sparse R-CNN。

Sparse R-CNN抛弃了anchor boxes或者reference point等dense概念,直接从a sparse set of learnable proposals出发,没有NMS后处理,整个网络异常干净和简洁,可以看做是一个全新的检测范式。

2.Sparse R-CNN

Sparse R-CNN的object candidates是一组可学习的参数,N*4,N代表object candidates的个数,一般为100~300,4代表物体框的四个边界。这组参数和整个网络中的其他参数一起被训练优化。That's it,完全没有dense detector中成千上万的枚举。这组sparse的object candidates作为proposal boxes用以提取Region of Interest(RoI),预测回归和分类。

这组学习到的proposal boxes可以理解为图像中可能出现物体的位置的统计值,这样coarse的表征提取出来的RoI feature显然不足以精确定位和分类物体。于是,我们引入一种特征层面的candidates,proposal features,这也是一组可学习的参数,N*d,N代表object candidates的个数,与proposal boxes一一对应,d代表feature的维度,一般为256。这组proposal features与proposal boxes提取出来的RoI feature做一对一的交互,从而使得RoI feature的特征更有利于定位和分类物体。相比于原始的2-fc Head,我们的设计称为Dynamic Instance Interactive Head.

Sparse R-CNN的两个显著特点就是sparse object candidatessparse feature interaction,既没有dense的成千上万的candidates,也没有dense的global feature interaction。Sparse R-CNN可以看作是目标检测框架从dense到dense-to-sparse到sparse的一个方向拓展。

3. Architecture Design

Sparse R-CNN的网络设计原型是R-CNN家族。

  • Backbone是基于ResNet的FPN。

  • Head是一组iterative的Dynamic Instance Interactive Head,上一个head的output features和output boxes作为下一个head的proposal features和proposal boxes。Proposal features在与RoI features交互之前做self-attention。

  • 训练的损失函数是基于optimal bipartite matching的set prediction loss。


从Faster R-CNN(40.2 AP)出发,直接将RPN替换为a sparse set of learnable proposal boxes,AP降到18.5;引入iterative结构提升AP到32.2;引入dynamic instance interaction最终提升到42.3 AP。

4. Performance

我们沿用了Detectron2的3x training schedule,因此将Sparse R-CNN和Detectorn2中的detectors做比较(很多方法没有报道3x的性能,所以没有列出)。同时,我们也列出了同样不需要NMS后处理的DETR和Deformable DETR的性能。Sparse R-CNN在检测精度,推理时间和训练收敛速度都展现了相当有竞争力的性能。

5. Conclusion

R-CNN和Fast R-CNN出现后的一段时期内,目标检测领域的一个重要研究方向是提出更高效的region proposal generator。Faster R-CNN和RPN作为其中的佼佼者展现出广泛而持续的影响力。Sparse R-CNN首次展示了简单的一组可学习的参数作为proposal boxes即可达到comparable的性能。我们希望我们的工作能够带给大家一些关于end-to-end object detection的启发。

上述论文和项目代码下载


后台回复:Sparse R-CNN,即可下载上述项目源代码

目标检测综述下载

后台回复:目标检测二十年,即可下载39页的目标检测最全综述,共计411篇参考文献。


下载2


后台回复:CVPR2020,即可下载代码开源的论文合集

后台回复:ECCV2020,即可下载代码开源的论文合集

后台回复:YOLO,即可下载YOLOv4论文和代码


重磅!CVer-目标检测 微信交流群已成立


扫码添加CVer助手,可申请加入CVer-目标检测 微信交流群,目前已汇集4000人!涵盖2D/3D目标检测、小目标检测、遥感目标检测等。互相交流,一起进步!


同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加群


▲长按关注我们

整理不易,请给CVer点赞和在看

登录查看更多
1

相关内容

【NeurIPS2020】针对弱监督目标检测的综合注意力自蒸馏
专知会员服务
31+阅读 · 2020年11月12日
专知会员服务
12+阅读 · 2020年9月19日
深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
深度学习目标检测方法及其主流框架综述
专知会员服务
147+阅读 · 2020年6月26日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
118+阅读 · 2020年6月26日
专知会员服务
161+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
47.4mAP!最强Anchor-free目标检测网络:SAPD
极市平台
13+阅读 · 2019年12月16日
大盘点 | 性能最强的目标检测算法
极市平台
9+阅读 · 2019年7月8日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
ECCV 2018 | CornerNet:目标检测算法新思路
极市平台
13+阅读 · 2018年8月11日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
8+阅读 · 2018年1月12日
VIP会员
相关VIP内容
【NeurIPS2020】针对弱监督目标检测的综合注意力自蒸馏
专知会员服务
31+阅读 · 2020年11月12日
专知会员服务
12+阅读 · 2020年9月19日
深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
深度学习目标检测方法及其主流框架综述
专知会员服务
147+阅读 · 2020年6月26日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
118+阅读 · 2020年6月26日
专知会员服务
161+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
相关资讯
47.4mAP!最强Anchor-free目标检测网络:SAPD
极市平台
13+阅读 · 2019年12月16日
大盘点 | 性能最强的目标检测算法
极市平台
9+阅读 · 2019年7月8日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
ECCV 2018 | CornerNet:目标检测算法新思路
极市平台
13+阅读 · 2018年8月11日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
Top
微信扫码咨询专知VIP会员