Image captioning models have achieved impressive results on datasets containing limited visual concepts and large amounts of paired image-caption training data. However, if these models are to ever function in the wild, a much larger variety of visual concepts must be learned, ideally from less supervision. To encourage the development of image captioning models that can learn visual concepts from alternative data sources, such as object detection datasets, we present the first large-scale benchmark for this task. Dubbed 'nocaps', for novel object captioning at scale, our benchmark consists of 166,100 human-generated captions describing 15,100 images from the Open Images validation and test sets. The associated training data consists of COCO image-caption pairs, plus Open Images image-level labels and object bounding boxes. Since Open Images contains many more classes than COCO, more than 500 object classes seen in test images have no training captions (hence, nocaps). We evaluate several existing approaches to novel object captioning on our challenging benchmark. In automatic evaluations these approaches show modest improvements over a strong baseline trained only on image-caption data. However, even when using ground-truth object detections, the results are significantly weaker than our human baseline - indicating substantial room for improvement.


翻译:在包含有限视觉概念和大量配对图像描述培训数据的数据集中,图像字幕模型取得了令人印象深刻的成果。然而,如果这些模型要在野生环境中永远发挥作用,则必须学习更多的视觉概念,最好是从较少的监督中学习。为了鼓励开发能够从其他数据源(如物体探测数据集)中学习视觉概念的图像字幕模型,我们为这项任务提出了第一个大型基准。对于规模上的新目标字幕,我们的基准由166 100个人类产生的字幕组成,描述来自开放图像验证和测试组的15 100个图像。相关的培训数据包括COCOCO图像描述配对,加上开放图像级标签和对象捆绑框。由于开放图像包含比COCO更多的课程,在测试图像中看到的500多个对象课程没有培训字幕(hence, nocaps)。我们评估了现有几种关于我们具有挑战性基准的新目标字幕的方法。在自动评估中,这些方法显示,在只对图像描述数据所训练的强基线方面稍有改进。然而,即使使用地面测量的结果也比人类的要弱得多。

6
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
因果关联学习,Causal Relational Learning
专知会员服务
182+阅读 · 2020年4月21日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
3+阅读 · 2019年3月29日
Arxiv
7+阅读 · 2018年11月27日
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月21日
Arxiv
7+阅读 · 2018年4月11日
VIP会员
相关论文
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
3+阅读 · 2019年3月29日
Arxiv
7+阅读 · 2018年11月27日
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月21日
Arxiv
7+阅读 · 2018年4月11日
Top
微信扫码咨询专知VIP会员