DINO:目标检测benchmark COCO屠榜的正确姿势

2022 年 3 月 11 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨陈泰红(已授权)
来源丨https://zhuanlan.zhihu.com/p/478461226
编辑丨极市平台
转载请联系原作者授权,不得二次转载

极市导读

 

DETR系列的论文又屠榜了,在COCO test-dev达到创纪录的63.3AP!因此作者将2020年以来所有的DETR系列的优势和历程进行了一个梳理,本文只为抛砖引玉,更多的是希望大家能一起进行交流~ >>加入极市CV技术交流群,走在计算机视觉的最前沿

不小心在paperwithcode看到,DETR系列的论文又屠榜了,在COCO test-dev达到创纪录的63.3AP,忍不住想写一下,2020年以来DETR系列的优势和历程(如何灌水的),虽然原作者也经常上知乎,班门弄斧只为抛砖引玉,更多的思想交流吧。

1 DETR干了啥?

DETR是2020年,由Facebook AI提出,开创性将Transformer引入Detection领域,去掉传统两阶段FasterRCNN和一阶段CenterNet的代表性小技巧(面试最容易考),如RoIpooling,NMS,anchor generation等。

Transformer中attention机制能够有效建模图像中的长程关系(long range dependency),真正实现end-to-end的目标检测新范式。

DETR将目标检测看作一种set prediction问题,并提出了一个十分简洁的目标检测pipeline:backbone CNN提特征,送入Transformer做关系建模,得到的输出通过二分图匹配算法与图片上的ground truth做匹配。

2 DINO能干啥?

最新屠榜的这篇DINO,是清华大学,香港科技大学等人提出来的,比较奇怪是论文相互引用,作者也几乎是同一套班底,DN-DETR发表在CVPR2022, DAB-DETR发表在ICLR2022,idea有很多相似的地方。

论文的说法是,解决三个问题:

a. Contrastive DeNoising Training

为了改善one-to-one匹配问题,训练的时候正样本和负样本同时加了噪声。添加smaller noise的作为正样本,其他作为负样本,主要目的是去重box。

b. Mixed Query Selection

类似于经典的two-stage模型,提出mixed query selection method,有助于改善queries的初始化。

c. Look Forward Twice

类似于经典的FPN,引入非临近层的特征,更像是增加感受一下,提高小目标的表达能力。

想了解DETR系列如何刷榜COCO的,可以看看Awesome Detection Transformer

https://github.com/IDEACVR/awesome-detection-transformer

3 为什么是COCO,objects365&openimages去哪里了?

去年的一个工作是用一个backbone,训练openimages& objects365&COCO 1000+目标,说的就是这篇论文Uninet,累的要命,objects365 64w图片,openimages 150w图片,而COCO只有12万,80类检测目标。训练objects365需要32G V100 8卡机一周,而训练COCO只需要32G V100 8卡机二小时,三个分支加一起就得1个月才能训练一遍。发论文需要千百次训练,哪有那么多时间,要是我也愿意在COCO做些文章,万一过拟合也能涨点不是。

4 Detection还要解决那些问题?

1. Transformer需要对特征图上每个位置都参与计算,高分辨率图像必然导致高计算量和空间复杂度,小目标检测一般,目前主要靠多尺度增强小目标的检测能力。

2. Transformer在初始化的时候,attention weights 几乎是平均的,迭代周期长,训练速度也会慢很多。

参考:
[1]DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection.
[paper]:https://arxiv.org/abs/2203.03605
[code]:https://github.com/IDEACVR/DINO
[2]DN-DETR: Accelerate DETR Training by Introducing Query DeNoising.
[paper] :https://arxiv.org/abs/2203.01305
[code]:https://github.com/FengLi-ust/DN-DETR
[3]DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR.
[paper] :https://arxiv.org/abs/2201.12329
[code]:https://github.com/SlongLiu/DAB-DETR
[4][DETR] End-to-End Object Detection with Transformers.
[paper] :https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2005.12872
[code]:https://link.zhihu.com/?target=https%3A//github.com/facebookresearch/detr


公众号后台回复“数据集”获取30+深度学习数据集下载~

△点击卡片关注极市平台,获取 最新CV干货
极市干货
数据集资源汇总: 10个开源工业检测数据集汇总 21个深度学习开源数据集分类汇总
算法trick 目标检测比赛中的tricks集锦 从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述: 一文弄懂各种loss function 工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


觉得有用麻烦给个在看啦~   
登录查看更多
1

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于深度学习的图像目标检测算法综述
专知会员服务
97+阅读 · 2022年4月15日
CVPR2022 | 一种适用于密集场景的渐进式端到端目标检测器
【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
【Hinton新论文】语言建模目标检测Pix2seq
专知会员服务
25+阅读 · 2021年9月23日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
专知会员服务
45+阅读 · 2020年10月5日
目标检测正负样本区分策略和平衡策略总结
极市平台
0+阅读 · 2022年3月1日
目标检测之殇—小目标检测
极市平台
5+阅读 · 2021年11月3日
PolarMask: 一阶段实例分割新思路
极市平台
13+阅读 · 2019年10月10日
大盘点 | 性能最强的目标检测算法
新智元
13+阅读 · 2019年7月9日
ECCV 2018 | CornerNet:目标检测算法新思路
极市平台
13+阅读 · 2018年8月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
12+阅读 · 2021年11月1日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
VIP会员
相关VIP内容
基于深度学习的图像目标检测算法综述
专知会员服务
97+阅读 · 2022年4月15日
CVPR2022 | 一种适用于密集场景的渐进式端到端目标检测器
【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
【Hinton新论文】语言建模目标检测Pix2seq
专知会员服务
25+阅读 · 2021年9月23日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
专知会员服务
45+阅读 · 2020年10月5日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员