最近的视觉基础模型能够提取通用表征,并在各种任务中表现出强大的能力。然而,它们在目标检测中的应用尚未得到充分重视,尤其是在不对其进行微调的情况下。在本研究中,我们展示了即使没有为目标检测预训练的冻结基础模型也可以成为多功能的特征增强器。具体而言,我们探索了将基础模型的高级图像理解能力直接转移到检测器中的两种方式。首先,基础模型中的类别token提供了对复杂场景的深入理解,这可以通过提供紧凑的上下文来帮助检测器解码器中的对象查询解码。此外,基础模型中的patch tokens能够提供语义细节,从而丰富检测器编码器中的特征。将冻结的基础模型作为即插即用模块,而非常用的骨干网络,不仅显著提升了检测器的性能,还有效避免了检测器骨干网络与基础模型之间的架构差异所导致的问题。在这种创新范式下,我们将SOTA查询式检测器DINO的AP从49.0%提升到51.9%(+2.9% AP),并通过集成一个或两个基础模型,进一步提升到53.8% AP(+4.8% AP),该实验在COCO验证集上进行,检测器的骨干网络为R50,训练周期为12个epochs。

成为VIP会员查看完整内容
13

相关内容

【ICML2023】POUF:面向提示的大型预训练模型无监督微调
专知会员服务
38+阅读 · 2023年5月18日
【NeurIPS2022】持续强化学习中的解纠缠迁移
专知会员服务
26+阅读 · 2022年10月3日
专知会员服务
14+阅读 · 2021年10月15日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
153+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
65+阅读 · 2023年3月26日
Arxiv
137+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ICML2023】POUF:面向提示的大型预训练模型无监督微调
专知会员服务
38+阅读 · 2023年5月18日
【NeurIPS2022】持续强化学习中的解纠缠迁移
专知会员服务
26+阅读 · 2022年10月3日
专知会员服务
14+阅读 · 2021年10月15日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员