Pretraining on large-scale datasets can boost the performance of object detectors while the annotated datasets for object detection are hard to scale up due to the high labor cost. What we possess are numerous isolated filed-specific datasets, thus, it is appealing to jointly pretrain models across aggregation of datasets to enhance data volume and diversity. In this paper, we propose a strong framework for utilizing Multiple datasets to pretrain DETR-like detectors, termed METR, without the need for manual label spaces integration. It converts the typical multi-classification in object detection into binary classification by introducing a pre-trained language model. Specifically, we design a category extraction module for extracting potential categories involved in an image and assign these categories into different queries by language embeddings. Each query is only responsible for predicting a class-specific object. Besides, to adapt our novel detection paradigm, we propose a group bipartite matching strategy that limits the ground truths to match queries assigned to the same category. Extensive experiments demonstrate that METR achieves extraordinary results on either multi-task joint training or the pretrain & finetune paradigm. Notably, our pre-trained models have high flexible transferability and increase the performance upon various DETR-like detectors on COCO val2017 benchmark. Codes will be available after this paper is published.


翻译:预训练大规模数据集可提高目标检测器的性能,然而由于标注数据集的高工作量,目标检测器的数据集难以扩大。我们拥有大量孤立的领域特定数据集,因此,联合预训练模型可以增强数据的数量和多样性,这是很有吸引力的。本文提出了一种强大的方法,利用多个数据集来预训练DETR的探测器,称为METR,无需手动标注空间的整合。它通过引入预训练语言模型,将目标检测中的典型多分类问题转化为二分类问题。具体地,我们设计了一个类别提取模块,用于提取图像中涉及的潜在类别,并通过语言嵌入将这些类别分配到不同的查询中。每个查询仅负责预测特定类别的对象。此外,为了适应我们的新型检测规则,我们提出了一种分组二分图匹配策略,将地面实况限制为匹配分配给同一类别的查询。广泛的实验表明,METR不论是在多任务联合训练还是预训练和微调范式下都能达到出色的效果。值得注意的是,我们的预训练模型具有高度可灵活地可迁移性,并提高了在COCO val2017基准上各种DETR-like检测器的性能。代码将在本论文发表后发布。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
11+阅读 · 2021年12月9日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月24日
Arxiv
23+阅读 · 2021年3月4日
Arxiv
21+阅读 · 2020年10月11日
VIP会员
相关VIP内容
NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
11+阅读 · 2021年12月9日
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员