霸榜COCO！DINO: 让目标检测拥抱Transformer

2022 年 7 月 24 日 PaperWeekly

©作者 | 李峰

单位 | 香港科技大学博士生

研究方向 | 目标检测、多模态学习

PR 一下我们最近刷榜 COCO 的目标检测模型，DINO（DETR withImproved deNoising anchOr boxes），从三月初霸榜至今（7 月），该模型第一次让 DETR （DEtection TRansformer）类型的检测器取得了目标检测的 SOTA 性能，在 COCO 上取得了 63.3 AP 的性能，相比之前的 SOTA 检测器将模型参数和训练数据减少了十倍以上！

论文标题：

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

论文链接：

https://arxiv.org/abs/2203.03605

代码链接：

https://github.com/IDEACVR/DINO

主要特性

SOTA 性能： 在大模型上以相对较小的数据和模型（～1/10 相比之前 SwinV2）取得了最好的检测结果。在 ResNet-50 的标准 setting 下取得了 51.3 AP。
End2end（端到端可学习）： DINO 属于 DETR 类型的检测器，是端到端可学习的，避免了传统检测器许多需要手工设计的模块（如 NMS）。
Fast converging（收敛快）：在标准的 ResNet-50 setting 下，使用 5 个尺度特征（5-scale）的 DINO 在 12 个 epoch 中达到 49.4 AP，在 24 个 epoch 中达到 51.3 AP。使用 4 个尺度特征（4-scale）的 DINO 达到了了类似的性能并可以以 23 FPS 运行。

效果展示

▲ La La Land, trained on COCO

▲ 007, trained on COCO

Motivation出发点

Transformer 如今被广泛应用于自然语言处理和计算机视觉，并在很多主流的任务上都取得了最好的性能。然而，在目标检测领域，DETR 这种基于 Transformer 的检测器虽然作为一种很有新意的检测器，但却没有作为一种主流的检测器得到广泛运用。例如，几乎所有的模型在 PaperWithCode 的榜单上都是使用传统的 CNN 检测头（如 HTC [1] ）。

因此，我们很感兴趣的事就是，DETR 这种简洁、端到端可学习的目标检测器，同时还有更强的模型 Transformer 的加持，能否无法取得更好的表现？

答案是肯定的。

Background 背景简介

在做 DINO 之前，我们实验室的几个同学完成了 DAB-DETR [2] 和 DN-DETR [3] ，DINO 也是我们几个同学一起接着这两篇工作的一个延续，沿用了这些设计。

DAB-DETR 是在思考 DETR query 理解的问题。它直接把 DETR 的 positional query 显示地建模为四维的框四维的框，同时每一层 decoder 中都会去预测相对偏移量并去更新检测框，得到一个更加精确的检测框预测

，动态更新这个检测框并用它来帮助 decoder cross-attention 来抽取 feature。

DN-DETR 是在思考 DETR 中的二分图匹配问题，或者说标签分配问题。我们发现 DETR 中的二分匹配在早期十分不稳定，这会导致优化目标不一致引起收敛缓慢的问题。因此，我们使用一个 denoising task 直接把带有噪声的真实框输入到 decoder 中，作为一个 shortcut 来学习相对偏移，它跳过了匹配过程直接进行学习（详细理解在我之前的文章）。

这两篇文章让我们对 DETR 的理解加深了很多，同时也把 DETR 类型模型的效果做到了和传统 CNN 模型在收敛速度和结果上 comparable。如何进一步提高检测器性能和收敛速度？我们可以沿着 DAB 和 DN 去进一步思考：

DAB 让我们意识到 query 的重要性，那么如何学到更好的或者初始化更好的 query？
DN 引入了去噪训练来稳定标签分配，如何进一步优化标签分配？

Method方法简介

为了解决上面提到的问题，DINO 进一步提出了 3 个改进来进行优化，模型架构如上图所示。

5.1 Contrastive denoising（DN）

DN 的去噪训练里面引入的噪声样本都是正样本来进行学习，然而模型不仅需要学习到如何回归出正样本，还需要意识到如何区分负样本。例如，DINO 的 decoder 中用了 900 个 query，而一张图中一般只会有几个物体，因此绝大部分都负样本。

因此，我们设计了训练模型识别负样本的方法，如上图所示，我们对 DN 进行了改进，不仅要回归真实框，还需要辨别负样本。对于 DN 的输入当对真实框加入了较大噪声时，我们就认为其为负样本，在去噪训练中会被监督不预测物体。同时，这些负样本恰好是在真实框附近的，因此是相对很难区分难的负样本，让模型得以学习的正负样本的区分问题。

5.2 Mix query selection

在大部分 detr 模型中，query 是从数据集中学习出来的，并不和输入图片相关。为了更好得初始化 decoder query，deformable detr [4] 提出用 encoder 的 dense feature 中预测出类别和框，并从这些密集预测中选出一些有意义的来初始化 decoder feature。

然而，这种方式并没有在后来的工作中得到广泛运用，我们对这种方式进行了一些改进并重新强调其重要性。在 query 中，我们实际更关心 position query，也就是框。同时，从 encoder feature 中选取的 feature 作为 content query 对于检测来说并不是最好的，因为这些 feature 都是很粗糙的没有经过优化，可能有歧义性。例如对“人”这个类别，选出的 feature 可能只包含人的一部分或者人周围的物体，并不准确，因为它是 grid feature。

因此，我们对此进行了改进，让 query selection 只选择 position query，而利用可学习的 content query。

5.3 Look forward twice

这个方法对 decoder 的梯度传播进行了一些优化，这里就不展开讲了，可以到我们的 paper 进一步阅读。

总结

我们希望 DINO 能给大家带来一些启示，它具有 SOTA 的性能，端到端优化的简洁，以及快速收敛、训练和 inference 快等多个优点。

同时也希望 DETR 类型的检测器得到更多人的运用，让大家意识到 DETR 类型的检测器不仅是一种 novel 的方法，同时也具拥有强健的性能。

参考文献

[1] HTC https://arxiv.org/abs/1901.07518

[2] DAB-DETR https://arxiv.org/abs/2201.12329

[3] DN-DETR https://arxiv.org/pdf/2203.01305.pdf

[4] https://arxiv.org/abs/2010.04159

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

检测器

关注 0

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【AAAI2022】锚框排序知识蒸馏的目标检测

专知会员服务

26+阅读 · 2022年2月10日

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

专知会员服务

13+阅读 · 2021年12月31日

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

ICCV 2021｜“白嫖”性能的MixMo，一种新的数据增强or模型融合方法

专知会员服务

25+阅读 · 2021年8月6日

【CVPR2021】预训练图像处理Transformer

专知会员服务

46+阅读 · 2021年6月1日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

DETR在目标检测一样能打！DINO: 让目标检测拥抱Transformer（开源）

极市平台

2+阅读 · 2022年7月18日

大白话用Transformer做Object Detection

PaperWeekly

2+阅读 · 2022年5月3日

CVPR 2022｜打破传统的跟踪范式！南大开源MixFormer：端到端目标检测新模型

极市平台

2+阅读 · 2022年3月24日

CVPR 2022 | Transformer再屠榜！南大提出MixFormer：端到端目标跟踪新网络

CVer

1+阅读 · 2022年3月23日

CVPR 2022 | 高分论文！港科大/IDEA/清华提出DN-DETR: 加速DETR收敛的去噪训练

CVer

3+阅读 · 2022年3月11日

DINO：目标检测benchmark COCO屠榜的正确姿势

极市平台

1+阅读 · 2022年3月11日

用Transformer进行端到端视觉表示学习！ Box-Attention：目标检测、实例分割轻松涨点

极市平台

0+阅读 · 2021年12月13日

全面理解目标检测中的anchor

极市平台

2+阅读 · 2021年11月20日

47.4mAP！最强Anchor-free目标检测网络：SAPD

极市平台

13+阅读 · 2019年12月16日

从Densebox到Dubox：更快、性能更优、更易部署的anchor-free目标检测

极市平台

13+阅读 · 2019年5月14日

基于稀疏表示的在线视觉跟踪

国家自然科学基金

0+阅读 · 2014年12月31日

面向弱点目标检测的规则集创建研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于姿态估计的捷联惯导动机座初始对准技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于卸荷作用的深部围岩拉伸蠕变损伤演化机理及本构模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于大维随机矩阵理论的MIMO雷达稳健目标检测与估计

国家自然科学基金

1+阅读 · 2012年12月31日

microRNA对NFATc1/RANKL骨免疫信号通路的调控机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

先进卫星导航系统信号互相关干扰特性分析方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

多地区大样本长寿人群的线粒体全基因组特征研究

国家自然科学基金

0+阅读 · 2011年12月31日

低空空域中的一次非相干雷达飞行器目标检测与跟踪算法研究

国家自然科学基金

1+阅读 · 2010年12月31日

基于生成树库分析与生成一体化机器翻译模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

Few-Shot Object Detection in Unseen Domains

Arxiv

0+阅读 · 2022年9月19日

Block-Recurrent Transformers

Arxiv

0+阅读 · 2022年9月17日

Beat Transformer: Demixed Beat and Downbeat Tracking with Dilated Self-Attention

Arxiv

0+阅读 · 2022年9月15日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Do RNN and LSTM have Long Memory?

Arxiv

19+阅读 · 2020年6月10日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员