In this paper, we formally address universal object detection, which aims to detect every scene and predict every category. The dependence on human annotations, the limited visual information, and the novel categories in the open world severely restrict the universality of traditional detectors. We propose \textbf{UniDetector}, a universal object detector that has the ability to recognize enormous categories in the open world. The critical points for the universality of UniDetector are: 1) it leverages images of multiple sources and heterogeneous label spaces for training through the alignment of image and text spaces, which guarantees sufficient information for universal representations. 2) it generalizes to the open world easily while keeping the balance between seen and unseen classes, thanks to abundant information from both vision and language modalities. 3) it further promotes the generalization ability to novel categories through our proposed decoupling training manner and probability calibration. These contributions allow UniDetector to detect over 7k categories, the largest measurable category size so far, with only about 500 classes participating in training. Our UniDetector behaves the strong zero-shot generalization ability on large-vocabulary datasets like LVIS, ImageNetBoxes, and VisualGenome - it surpasses the traditional supervised baselines by more than 4\% on average without seeing any corresponding images. On 13 public detection datasets with various scenes, UniDetector also achieves state-of-the-art performance with only a 3\% amount of training data.


翻译:在本文中,我们正式讨论通用物体探测,旨在探测每个场景并预测每个类别。传统探测器对人类标注的依赖性,有限的视觉信息以及开放世界中的新类别严重限制了它的通用性。我们提出了UniDetector,一种通用物体探测器,具有识别开放世界中大量类别的能力。UniDetector的通用性关键点为:1)通过对齐图像和文本空间,它利用来自多个来源和异构标签空间的图像进行训练,以保证通用表示的充分信息。2)它易于推广到开放世界,同时保持已知类别和未知类别之间的平衡,得益于来自视觉和语言模态的丰富信息。3)它通过我们提出的解耦式训练方式和概率校准进一步促进了对新类别的泛化能力。这些贡献使UniDetector能够检测超过7k个类别,这是迄今可测量的最大类别大小,仅有约500个类别参与训练。在大词汇数据集如LVIS、ImageNetBoxes和VisualGenome上,我们的UniDetector表现出强大的零样本泛化能力——在不看到任何相应图像的情况下,平均超过传统监督基线4%以上。在13个具有不同场景的公共探测数据集上,UniDetector也仅需要3%的训练数据就可以实现最先进的性能。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
22+阅读 · 2021年11月29日
ECCV 2022 | 基于数据转移的细粒度场景图生成
PaperWeekly
0+阅读 · 2022年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
全景分割这一年,端到端之路
机器之心
14+阅读 · 2018年12月24日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
21+阅读 · 2020年10月11日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
11+阅读 · 2019年4月15日
VIP会员
相关VIP内容
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
22+阅读 · 2021年11月29日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员