Despite the remarkable accuracy of deep neural networks in object detection, they are costly to train and scale due to supervision requirements. Particularly, learning more object categories typically requires proportionally more bounding box annotations. Weakly supervised and zero-shot learning techniques have been explored to scale object detectors to more categories with less supervision, but they have not been as successful and widely adopted as supervised models. In this paper, we put forth a novel formulation of the object detection problem, namely open-vocabulary object detection, which is more general, more practical, and more effective than weakly supervised and zero-shot approaches. We propose a new method to train object detectors using bounding box annotations for a limited set of object categories, as well as image-caption pairs that cover a larger variety of objects at a significantly lower cost. We show that the proposed method can detect and localize objects for which no bounding box annotation is provided during training, at a significantly higher accuracy than zero-shot approaches. Meanwhile, objects with bounding box annotation can be detected almost as accurately as supervised methods, which is significantly better than weakly supervised baselines. Accordingly, we establish a new state of the art for scalable object detection.


翻译:尽管深神经网络在物体探测方面的精度很高,但是由于监督要求,它们的训练和规模却非常昂贵。特别是,学习更多的物体类别通常要求比例性强的框注解。已经探索了微弱的监督和零光学习技术,将物体探测器的规模扩大到更多的类别,而监督程度则较低,但是这些技术没有像监督模型那样成功和被广泛采用。在本文件中,我们提出了物体探测问题的新表述,即:开放式弹道物体探测,这种探测比监管不力和零射线方法更一般、更实用、更有效。我们提出了一种新的方法,用约束箱注解来训练物体探测器,用约束箱注解来训练有限的一组物体类别,以及覆盖更多种类物体的图像显示配对,费用要低得多。我们表明,拟议的方法可以探测和定位在培训期间没有提供约束箱注解的物体,其精确度比零射线方法高得多。同时,带有约束箱注解的物体的物体几乎可以被精确地探测,这比监管的基线要好得多。因此,我们为可测量的物体定出一种新的状态。

1
下载
关闭预览

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
3+阅读 · 2019年3月29日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
7+阅读 · 2018年4月11日
Arxiv
6+阅读 · 2018年3月19日
VIP会员
相关VIP内容
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
相关论文
Arxiv
3+阅读 · 2019年3月29日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
7+阅读 · 2018年4月11日
Arxiv
6+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员