成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
目标检测新范式:Sparse R-CNN,港大同济伯克利联合工作
2020 年 11 月 27 日
AI科技评论
作者 | 孙培泽
编辑 | 陈大鑫
本文主要介绍一篇目标检测领域的一篇工作,在这项工作中,作者
沿着目标检测领域中Dense和Dense-to-Sparse的框架,建立了一种彻底的Sparse框架:
Sparse R-CNN。
这项
Sparse R-CNN
框架脱离了anchor box,reference point,Region Proposal Network(RPN)等概念,无需Non-Maximum Suppression(NMS)后处理,在标准的COCO benchmark上使用ResNet-50 FPN单模型在标准3x training schedule达到了
44.5 AP和 22 FPS
。
论文名称:
《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》
论文链接: https://arxiv.org/abs/2011.12450
开源代码: https://github.com/PeizeSun/SparseR-CNN
1
动机
我们先简单回顾一下目标检测领域中主流的两大类方法。
第一大类是从非Deep时代就被广泛应用的dense detector,例如DPM,YOLO,RetinaNet,FCOS。
在Dense detector中, 大量的Object candidates例如sliding-windows,anchor-boxes, reference-points等被提前预设在图像网格或者特征图网格上,然后直接预测这些candidates到gt的scaling/offest和物体类别。
第二大类是Dense-to-sparse detector,例如,R-CNN家族。
这类方法的特点是对一组sparse的candidates预测回归和分类,而这组sparse的candidates来自于dense detector。
这两类框架推动了整个领域的学术研究和工业应用。目标检测领域看似已经饱和,然而dense属性的一些固有局限总让人难以满意:
NMS 后处理
many-to-one 正负样本分配
prior candidates的设计
所以,一个很自然的思考方向就是:
能不能设计一种彻底的sparse框架?
最近,DETR给出了一种sparse的设计方案。
candidates是一组sparse的learnable object queries,正负样本分配是one-to-one的optimal bipartite matching,无需nms直接输出最终的检测结果。然而,DETR中每个object query都和全局的特征图做attention交互,这本质上也是dense。
而我们认为,sparse的检测框架应该体现在两个方面:sparse candidates和sparse feature interaction。
基于此,我们提出了Sparse R-CNN:
Sparse R-CNN抛弃了anchor boxes或者reference point等dense概念,直接从a sparse set of learnable proposals出发,没有NMS后处理,整个网络异常干净和简洁,可以看做是一个全新的检测范式。
2
Sparse R-CNN
Sparse R-CNN的object candidates是一组可学习的参数,N*4,N代表object candidates的个数,一般为100~300,4代表物体框的四个边界。这组参数和整个网络中的其他参数一起被训练优化。
也就是说
完全没有dense detector中成千
上万的枚举。
这组sparse的object candidates作为proposal boxes用以提取Region of Interest(RoI),预测回归和分类。
这组学习到的proposal boxes可以理解为图像中可能出现物体的位置的统计值,这样coarse的表征提取出来的RoI feature显然不足以精确定位和分类物体。
于是,我们引入一种特征层面的candidates,proposal features,这也是一组可学习的参数,N*d,N代表object candidates的个数,与proposal boxes一一对应,d代表feature的维度,一般为256。
这组proposal features与proposal boxes提取出来的RoI feature做一对一的交互,从而使得RoI feature的特征更有利于定位和分类物体。相比于原始的2-fc Head,我们的设计称为Dynamic Instance Interactive Head.
Sparse R-CNN的两个显著特点就是
sparse object candidates和sparse feature interaction
,既没有dense的成千上万的candidates,也没有dense的global feature interaction。
Sparse R-CNN可以看作是目标检测框架从dense到dense-to-sparse到sparse的一个方向拓展。
架构设计
Sparse R-CNN的网络设计原型是R-CNN家族。
Backbone是基于ResNet的FPN。
Head是一组iterative的Dynamic Instance Interactive Head,上一个head的output features和output boxes作为下一个head的proposal features和proposal boxes。Proposal features在与RoI features交互之前做self-attention。
训练的损失函数是基于optimal bipartite matching的set prediction loss。
从Faster R-CNN(40.2 AP)出发,直接将RPN替换为a sparse set of learnable proposal boxes,AP降到18.5;引入iterative结构提升AP到32.2;引入dynamic instance interaction最终提升到42.3 AP。
性能
我们沿用了Detectron2的3x training schedule,因此将Sparse R-CNN和Detectorn2中的detectors做比较(很多方法没有报道3x的性能,所以没有列出)。同时,我们也列出了同样不需要NMS后处理的DETR和Deformable DETR的性能。
Sparse R-CNN在检测精度,推理时间和训练收敛速度都展现了相当有竞争力的性能。
3
结论
R-CNN和Fast R-CNN出现后的一段时期内,目标检测领域的一个重要研究方向是提出更高效的region proposal generator。Faster R-CNN和RPN作为其中的佼佼者展现出广泛而持续的影响力。
Sparse R-CNN首次展示了简单的一组可学习的参数作为proposal boxes即可达到comparable的性能。
我们希望我们的工作能够带给大家一些关于end-to-end目标检测的启发。
本文作者:孙培泽
本文经授权转载自知乎:https://zhuanlan.zhihu.com/p/310058362
点击阅读原文,直达NeurIPS小组!
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
Sparse R-CNN
关注
0
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
专知会员服务
27+阅读 · 2020年12月6日
【商汤科技】可变形Transformers端到端对象检测,Deformable DETR
专知会员服务
33+阅读 · 2020年10月11日
【CVPR2020】通过获取高质量的关键点对来提升目标检测性能
专知会员服务
44+阅读 · 2020年6月30日
深度学习目标检测方法及其主流框架综述
专知会员服务
148+阅读 · 2020年6月26日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
新杀器来了!Facebook AI提出DETR:用Transformers来进行端到端的目标检测
专知会员服务
51+阅读 · 2020年5月28日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
44+阅读 · 2020年4月17日
【厦门大学-CVPR2020】协调可迁移性与可判别性的自适应目标检测器,Adapting Object Detectors
专知会员服务
26+阅读 · 2020年3月16日
【ICCV2019教程】物体检测的R-CNN通用框架,The Generalized R-CNN Framework for Object Detection,180页ppt,Facebook 人工智能研究院Ross Girshick大神
专知会员服务
25+阅读 · 2019年11月16日
【目标检测 | 2019最新综述】目标检测的最新进展,附40页PDF,Recent Advances in Deep Learning for Object Detection
专知会员服务
85+阅读 · 2019年11月15日
最全综述 | 图像目标检测
计算机视觉life
31+阅读 · 2019年6月24日
重磅!13篇基于Anchor free的目标检测方法
极市平台
4+阅读 · 2019年5月28日
最新Anchor-Free目标检测模型—FoveaBox
PaperWeekly
6+阅读 · 2019年4月29日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
【深度学习】【检测】一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
产业智能官
8+阅读 · 2019年1月27日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
目标检测算法盘点(最全)
七月在线实验室
17+阅读 · 2018年4月27日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Stereo R-CNN based 3D Object Detection for Autonomous Driving
Arxiv
5+阅读 · 2019年2月26日
3D Backbone Network for 3D Object Detection
Arxiv
12+阅读 · 2019年1月24日
Speeding-up Object Detection Training for Robotics with FALKON
Arxiv
6+阅读 · 2018年8月27日
Deep Adaptive Proposal Network for Object Detection in Optical Remote Sensing Images
Arxiv
6+阅读 · 2018年7月19日
3D-SSD: Learning Hierarchical Features from RGB-D Images for Amodal 3D Object Detection
Arxiv
8+阅读 · 2018年2月21日
Mask R-CNN
Arxiv
7+阅读 · 2018年1月24日
Detect-and-Track: Efficient Pose Estimation in Videos
Arxiv
7+阅读 · 2017年12月26日
SSD: Single Shot MultiBox Detector
Arxiv
5+阅读 · 2016年12月29日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
Sparse R-CNN
稀疏
R-CNN
卷积神经网络
目标检测
NMS
相关VIP内容
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
专知会员服务
27+阅读 · 2020年12月6日
【商汤科技】可变形Transformers端到端对象检测,Deformable DETR
专知会员服务
33+阅读 · 2020年10月11日
【CVPR2020】通过获取高质量的关键点对来提升目标检测性能
专知会员服务
44+阅读 · 2020年6月30日
深度学习目标检测方法及其主流框架综述
专知会员服务
148+阅读 · 2020年6月26日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
新杀器来了!Facebook AI提出DETR:用Transformers来进行端到端的目标检测
专知会员服务
51+阅读 · 2020年5月28日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
44+阅读 · 2020年4月17日
【厦门大学-CVPR2020】协调可迁移性与可判别性的自适应目标检测器,Adapting Object Detectors
专知会员服务
26+阅读 · 2020年3月16日
【ICCV2019教程】物体检测的R-CNN通用框架,The Generalized R-CNN Framework for Object Detection,180页ppt,Facebook 人工智能研究院Ross Girshick大神
专知会员服务
25+阅读 · 2019年11月16日
【目标检测 | 2019最新综述】目标检测的最新进展,附40页PDF,Recent Advances in Deep Learning for Object Detection
专知会员服务
85+阅读 · 2019年11月15日
热门VIP内容
开通专知VIP会员 享更多权益服务
2024年人形机器人核心场景发展洞察研究报告
【NYU博士论文】面向开放世界的人工智能:学习原则
作战仿真想定智能化生成研究综述
【CVPR2025】基于离散扩散时间步令牌的生成式多模态预训练
相关资讯
最全综述 | 图像目标检测
计算机视觉life
31+阅读 · 2019年6月24日
重磅!13篇基于Anchor free的目标检测方法
极市平台
4+阅读 · 2019年5月28日
最新Anchor-Free目标检测模型—FoveaBox
PaperWeekly
6+阅读 · 2019年4月29日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
【深度学习】【检测】一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
产业智能官
8+阅读 · 2019年1月27日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
目标检测算法盘点(最全)
七月在线实验室
17+阅读 · 2018年4月27日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Fast R-CNN
数据挖掘入门与实战
3+阅读 · 2018年4月20日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
相关论文
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Stereo R-CNN based 3D Object Detection for Autonomous Driving
Arxiv
5+阅读 · 2019年2月26日
3D Backbone Network for 3D Object Detection
Arxiv
12+阅读 · 2019年1月24日
Speeding-up Object Detection Training for Robotics with FALKON
Arxiv
6+阅读 · 2018年8月27日
Deep Adaptive Proposal Network for Object Detection in Optical Remote Sensing Images
Arxiv
6+阅读 · 2018年7月19日
3D-SSD: Learning Hierarchical Features from RGB-D Images for Amodal 3D Object Detection
Arxiv
8+阅读 · 2018年2月21日
Mask R-CNN
Arxiv
7+阅读 · 2018年1月24日
Detect-and-Track: Efficient Pose Estimation in Videos
Arxiv
7+阅读 · 2017年12月26日
SSD: Single Shot MultiBox Detector
Arxiv
5+阅读 · 2016年12月29日
大家都在搜
用户画像
量化交易
模型研究综述
无人机系统
最新条令
MMMia
银行
锂电池
RFID
OpenKG开源系列
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top