Current image captioning systems perform at a merely descriptive level, essentially enumerating the objects in the scene and their relations. Humans, on the contrary, interpret images by integrating several sources of prior knowledge of the world. In this work, we aim to take a step closer to producing captions that offer a plausible interpretation of the scene, by integrating such contextual information into the captioning pipeline. For this we focus on the captioning of images used to illustrate news articles. We propose a novel captioning method that is able to leverage contextual information provided by the text of news articles associated with an image. Our model is able to selectively draw information from the article guided by visual cues, and to dynamically extend the output dictionary to out-of-vocabulary named entities that appear in the context source. Furthermore we introduce `GoodNews', the largest news image captioning dataset in the literature and demonstrate state-of-the-art results.


翻译:目前的图像字幕系统仅以描述性水平运作, 主要是列出现场的物体及其关系。 相反, 人类通过整合世界先前知识的几个来源来解读图像。 在这项工作中, 我们的目标是更接近于制作能够对场景做出合理解释的字幕, 将这种背景信息整合到字幕管道中。 为此, 我们侧重于用于描述新闻文章的图像的字幕。 我们提出一种新的字幕方法, 能够利用与图像相关的新闻文章文本所提供的背景信息。 我们的模型能够有选择地从文章中提取由视觉提示引导的信息, 并动态地将输出词典扩展至上下文源中出现的外语界命名实体。 此外, 我们引入了“ GoodNews ”, 这是在文献中描述数据集的最大新闻图像, 并展示最新的结果 。

6
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
强化学习最新教程,17页pdf
专知会员服务
97+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
58+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
46+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
6+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
Image Captioning 36页最新综述, 161篇参考文献
专知
78+阅读 · 2018年10月23日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
计算机视觉近一年进展综述
机器学习研究会
7+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
16+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
5+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2019年8月7日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
7+阅读 · 2018年4月21日
VIP会员
相关VIP内容
强化学习最新教程,17页pdf
专知会员服务
97+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
58+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
46+阅读 · 2019年9月29日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
6+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
Image Captioning 36页最新综述, 161篇参考文献
专知
78+阅读 · 2018年10月23日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
计算机视觉近一年进展综述
机器学习研究会
7+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
16+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
5+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员