Open-world object detection (OWOD), as a more general and challenging goal, requires the model trained from data on known objects to detect both known and unknown objects and incrementally learn to identify these unknown objects. The existing works which employ standard detection framework and fixed pseudo-labelling mechanism (PLM) have the following problems: (i) The inclusion of detecting unknown objects substantially reduces the model's ability to detect known ones. (ii) The PLM does not adequately utilize the priori knowledge of inputs. (iii) The fixed selection manner of PLM cannot guarantee that the model is trained in the right direction. We observe that humans subconsciously prefer to focus on all foreground objects and then identify each one in detail, rather than localize and identify a single object simultaneously, for alleviating the confusion. This motivates us to propose a novel solution called CAT: LoCalization and IdentificAtion Cascade Detection Transformer which decouples the detection process via the shared decoder in the cascade decoding way. In the meanwhile, we propose the self-adaptive pseudo-labelling mechanism which combines the model-driven with input-driven PLM and self-adaptively generates robust pseudo-labels for unknown objects, significantly improving the ability of CAT to retrieve unknown objects. Comprehensive experiments on two benchmark datasets, i.e., MS-COCO and PASCAL VOC, show that our model outperforms the state-of-the-art in terms of all metrics in the task of OWOD, incremental object detection (IOD) and open-set detection.


翻译:开放世界物体检测(OWOD)是一项更为普遍和具有挑战性的目标,要求在已知物体的数据基础上训练的模型检测已知和未知物体,并逐步学习识别这些未知物体。现有的采用标准检测框架和固定伪标签机制(PLM)的方法存在以下问题:(i)检测未知物体的包含显著降低了模型检测已知物体的能力.(ii) PLM 没有充分利用输入的先验知识.(iii) PLM 的固定选择方式不能保证模型朝着正确的方向进行训练。我们发现人类下意识地更喜欢先集中精力关注所有前景物体,然后逐一详细识别它们,以缓解混淆。这激发了我们提出一种新的解决方案,称为CAT:定位和识别级联检测Transformer,它通过级联解码的方式,通过共享解码器解耦检测过程。同时,我们提出了自适应伪标注机制,将模型驱动和输入驱动的PLM相结合,自适应地生成稳健的未知物体伪标注,显著提高CAT检测未知物体的能力。在两个基准数据集MS-COCO和PASCAL VOC上的全面实验结果表明,我们的模型在OWOD任务、增量物体检测(IOD)和开放集检测方面优于现有技术。

0
下载
关闭预览

相关内容

【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
17+阅读 · 2023年3月2日
用于识别任务的视觉 Transformer 综述
专知会员服务
70+阅读 · 2023年2月25日
专知会员服务
20+阅读 · 2021年7月28日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度学习目标检测算法综述
AI研习社
25+阅读 · 2019年2月1日
用PyTorch做物体检测和追踪
AI研习社
12+阅读 · 2019年1月6日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
11+阅读 · 2022年3月16日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
13+阅读 · 2021年3月3日
VIP会员
相关VIP内容
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
17+阅读 · 2023年3月2日
用于识别任务的视觉 Transformer 综述
专知会员服务
70+阅读 · 2023年2月25日
专知会员服务
20+阅读 · 2021年7月28日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度学习目标检测算法综述
AI研习社
25+阅读 · 2019年2月1日
用PyTorch做物体检测和追踪
AI研习社
12+阅读 · 2019年1月6日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员