Recent advances in detecting arbitrary objects in the real world are trained and evaluated on object detection datasets with a relatively restricted vocabulary. To facilitate the development of more general visual object detection, we propose V3Det, a vast vocabulary visual detection dataset with precisely annotated bounding boxes on massive images. V3Det has several appealing properties: 1) Vast Vocabulary: It contains bounding boxes of objects from 13,029 categories on real-world images, which is 10 times larger than the existing large vocabulary object detection dataset, e.g., LVIS. 2) Hierarchical Category Organization: The vast vocabulary of V3Det is organized by a hierarchical category tree which annotates the inclusion relationship among categories, encouraging the exploration of category relationships in vast and open vocabulary object detection. 3) Rich Annotations: V3Det comprises precisely annotated objects in 245k images and professional descriptions of each category written by human experts and a powerful chatbot. By offering a vast exploration space, V3Det enables extensive benchmarks on both vast and open vocabulary object detection, leading to new observations, practices, and insights for future research. It has the potential to serve as a cornerstone dataset for developing more general visual perception systems.


翻译:近年来,现实世界中检测任意对象的最新进展是在具有相对受限的词汇表的对象检测数据集上训练和评估的。为了促进更一般的视觉对象检测的发展,我们提出了V3Det,这是一个庞大词汇视觉检测数据集,涵盖了巨大图像上精确标注的边界框。V3Det具有几个吸引人的特点:1)庞大词汇表:它包含来自13,029个类别的对象边界框,是现有大词汇表对象检测数据集(例如LVIS)的10倍。2)分层类别组织:V3Det的庞大词汇表由分层类别树组织,注释了类别之间的包含关系,鼓励在庞大和开放的词汇表对象检测中探索类别关系。 3)丰富的注释:V3Det包括245k图像中精确注释的对象和由人类专家和强大的聊天机器人编写的每个类别的专业描述。通过提供庞大的探索空间,V3Det可以在庞大和开放的词汇表对象检测上进行广泛的基准测试,从而推动未来研究的新观察,实践和见解。它有潜力成为发展更一般的视觉感知系统的基石数据集。

1
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
14+阅读 · 2019年4月29日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Kaggle 新赛:Google AI Open Images 目标检测
AI研习社
18+阅读 · 2018年7月4日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月26日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
14+阅读 · 2019年4月29日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Kaggle 新赛:Google AI Open Images 目标检测
AI研习社
18+阅读 · 2018年7月4日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员