DETR在目标检测一样能打!DINO: 让目标检测拥抱Transformer(开源)

2022 年 7 月 18 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨李峰@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/540786844
编辑丨极市平台

极市导读

 

DINO(DETR withImproved deNoising anchOr boxes),从三月初霸榜至今(7月),该模型第一次让DETR (DEtection TRansformer)类型的检测器取得了目标检测的SOTA性能,在COCO上取得了63.3 AP的性能,相比之前的SOTA检测器将模型参数和训练数据减少了十倍以上! >>加入极市CV技术交流群,走在计算机视觉的最前沿

PR一下我们@hzhang@隆啊隆最近刷榜COCO的目标检测模型,DINO(DETR withImproved deNoising anchOr boxes),从三月初霸榜至今(7月),该模型第一次让DETR (DEtection TRansformer)类型的检测器取得了目标检测的SOTA性能,在COCO上取得了63.3 AP的性能,相比之前的SOTA检测器将模型参数和训练数据减少了十倍以上!

论文:https://arxiv.org/abs/2203.03605

代码:https://github.com/IDEACVR/DINO ,现已开源!

主要特性:

  1. SOTA性能:在大模型上以相对较小的数据和模型(~ 1/10相比之前SwinV2)取得了最好的检测结果。在ResNet-50的标准setting下取得了 51.3 AP。
  2. End2end(端到端可学习) :DINO属于DETR类型的检测器,是端到端可学习的,避免了传统检测器许多需要手工设计的模块(如NMS)。
  3. Fast converging(收敛快) :在标准的ResNet-50 setting下,使用 5 个尺度特征(5-scale)的 DINO 在 12 个 epoch 中达到 49.4 AP,在 24 个 epoch 中达到 51.3 AP。使用4个尺度特征(4-scale)的DINO达到了了类似的性能并可以以 23 FPS 运行。

效果展示

La La Land, trained on COCOLa La Land, trained on COCO
007, trained on COCO

Motivation 出发点

Transformer如今被广泛应用于自然语言处理和计算机视觉,并在很多主流的任务上都取得了最好的性能。然而,在目标检测领域,DETR这种基于Transformer的检测器虽然作为一种很有新意的检测器,但却没有作为一种主流的检测器得到广泛运用。例如,几乎所有的模型在PaperWithCode(https://paperswithcode.com/sota/object-detection-on-coco)的榜单上都是使用传统的CNN检测头 (如HTC[1])。

因此,我们很感兴趣的事就是,DETR这种简洁、端到端可学习的目标检测器,同时还有更强的模型Transformer的加持,能否无法取得更好的表现

答案是肯定的。

Background 背景简介

在做DINO之前,我们实验室的几个同学完成了DAB-DETR[2] 和DN-DETR[3] ,DINO也是我们几个同学一起接着这两篇工作的一个延续,沿用了这些设计。

DAB-DETR是在思考DETR query理解的问题。它直接把DETR的positional query显示地建模为四维的框 ,同时每一层decoder中都会去预测相对偏移量 并去更新检测框,得到一个更加精确的检测框预测,动态更新这个检测框并用它来帮助decoder cross-attention来抽取feature。

DN-DETR是在思考DETR中的二分图匹配问题,或者说标签分配问题。我们发现DETR中的二分匹配在早期十分不稳定,这会导致优化目标不一致引起收敛缓慢的问题。因此,我们使用一个denoising task直接把带有噪声的真实框输入到decoder中,作为一个shortcut来学习相对偏移,它跳过了匹配过程直接进行学习 (详细理解在我之前的文章:https://www.zhihu.com/question/517340666/answer/2381304399)。

这两篇文章让我们对DETR的理解加深了很多,同时也把DETR类型模型的效果做到了和传统CNN模型在收敛速度和结果上comparable。如何进一步提高检测器性能和收敛速度?我们可以沿着DAB和DN去进一步思考:

  • DAB让我们意识到query的重要性,那么如何学到更好的或者初始化更好的query?
  • DN引入了去噪训练来稳定标签分配,如何进一步优化标签分配?

Method 方法简介

Framework

为了解决上面提到的问题,DINO进一步提出了3个改进来进行优化,模型架构如上图所示。

1.Contrastive denoising(DN)

DN的去噪训练里面引入的噪声样本都是正样本来进行学习,然而模型不仅需要学习到如何回归出正样本,还需要意识到如何区分负样本。例如,DINO的decoder中用了900个query,而一张图中一般只会有几个物体,因此绝大部分都负样本。

因此,我们设计了训练模型识别负样本的方法,如上图所示,我们对DN进行了改进,不仅要回归真实框,还需要辨别负样本。对于DN的输入当对真实框加入了较大噪声时,我们就认为其为负样本,在去噪训练中会被监督不预测物体。同时,这些负样本恰好是在真实框附近的,因此是相对很难区分难的负样本,让模型得以学习的正负样本的区分问题。

2. Mix query selection

在大部分detr模型中,query是从数据集中学习出来的,并不和输入图片相关。为了更好得初始化decoder query,deformable detr[4]提出用encoder的dense feature中预测出类别和框,并从这些密集预测中选出一些有意义的来初始化decoder feature。

然而,这种方式并没有在后来的工作中得到广泛运用,我们对这种方式进行了一些改进并重新强调其重要性。在query中,我们实际更关心position query,也就是框。同时,从encoder feature中选取的feature作为content query对于检测来说并不是最好的,因为这些feature都是很粗糙的没有经过优化,可能有歧义性。例如对“人”这个类别,选出的feature可能只包含人的一部分或者人周围的物体,并不准确,因为它是grid feature。

因此,我们对此进行了改进,让query selection只选择position query,而利用可学习的content query。

3. Look forward twice

这个方法对decoder的梯度传播进行了一些优化,这里就不展开讲了,可以到我们的paper进一步阅读。

总结

我们希望DINO能给大家带来一些启示,它具有SOTA的性能,端到端优化的简洁,以及快速收敛、训练和 inference快等多个优点。

同时也希望DETR类型的检测器得到更多人的运用,让大家意识到DETR类型的检测器不仅是一种novel的方法,同时也具拥有强健的性能。

参考

  1. ^HTC https://arxiv.org/abs/1901.07518
  2. ^DAB-DETR https://arxiv.org/abs/2201.12329
  3. ^DN-DETR https://arxiv.org/pdf/2203.01305.pdf
  4. ^https://arxiv.org/abs/2010.04159


公众号后台回复“项目实践”获取50+CV项目实践机会~

△点击卡片关注极市平台,获取 最新CV干货
极市干货
最新数据集资源 医学图像开源数据集汇总(二)
技术解读 一文打尽NMS技术的种种这是一篇对YOLOv7的详细解读和剖析
极视角动态: 青岛日报专访|极视角陈振杰:创业的每一个决定都要经得起逻辑推演 启动报名|2022GCVC全球人工智能视觉产业与技术大会,7月22日青岛见!

极市原创作者激励计划 #


极市平台深耕CV开发者领域近5年,拥有一大批优质CV开发者受众,覆盖微信、知乎、B站、微博等多个渠道。通过极市平台,您的文章的观点和看法能分享至更多CV开发者,既能体现文章的价值,又能让文章在视觉圈内得到更大程度上的推广。

对于优质内容开发者,极市可推荐至国内优秀出版社合作出书,同时为开发者引荐行业大牛,组织个人分享交流会,推荐名企就业机会,打造个人品牌 IP。

投稿须知:
1. 作者保证投稿作品为自己的 原创作品。
2. 极市平台尊重原作者署名权,并支付相应稿费。文章发布后,版权仍属于原作者。
3.原作者可以将文章发在其他平台的个人账号,但需要在文章顶部标明首发于极市平台

投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编

点击阅读原文进入CV社区

收获更多技术干货

登录查看更多
0

相关内容

何恺明组新论文:只用ViT做主干也可以做好目标检测
专知会员服务
30+阅读 · 2022年4月2日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
58+阅读 · 2021年3月3日
专知会员服务
13+阅读 · 2020年9月19日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
霸榜COCO!DINO: 让目标检测拥抱Transformer
PaperWeekly
1+阅读 · 2022年7月24日
CVPR22 |CMT:CNN和Transformer的高效结合(开源)
极市平台
2+阅读 · 2022年6月28日
大白话用Transformer做Object Detection
PaperWeekly
2+阅读 · 2022年5月3日
DINO:目标检测benchmark COCO屠榜的正确姿势
极市平台
1+阅读 · 2022年3月11日
目标检测中边界框的回归策略
极市平台
17+阅读 · 2019年9月8日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员