Most current image captioning systems focus on describing general image content, and lack background knowledge to deeply understand the image, such as exact named entities or concrete events. In this work, we focus on the entity-aware news image captioning task which aims to generate informative captions by leveraging the associated news articles to provide background knowledge about the target image. However, due to the length of news articles, previous works only employ news articles at the coarse article or sentence level, which are not fine-grained enough to refine relevant events and choose named entities accurately. To overcome these limitations, we propose an Information Concentrated Entity-aware news image CAPtioning (ICECAP) model, which progressively concentrates on relevant textual information within the corresponding news article from the sentence level to the word level. Our model first creates coarse concentration on relevant sentences using a cross-modality retrieval model and then generates captions by further concentrating on relevant words within the sentences. Extensive experiments on both BreakingNews and GoodNews datasets demonstrate the effectiveness of our proposed method, which outperforms other state-of-the-arts. The code of ICECAP is publicly available at https://github.com/HAWLYQ/ICECAP.


翻译:目前大多数图像字幕系统都侧重于描述一般图像内容,缺乏深入理解图像的背景知识,例如确切命名的实体或具体事件。在这项工作中,我们侧重于实体了解的新闻图像说明任务,目的是通过利用相关新闻文章提供有关目标图像的背景知识,产生信息性字幕;然而,由于新闻报道篇幅长,以前的作品只使用粗略文章或句级的新闻文章,这些文章不够精细,不足以完善相关事件并准确选择命名实体。为了克服这些限制,我们提议了一个信息集中实体了解的新闻图像解析(ICICECAP)模式,该模式逐步侧重于从句级到字级的相应新闻文章中的相关文本信息。我们的模型首先利用跨模式检索模型粗略地集中相关句子,然后通过在句子内进一步侧重于相关词句子来生成字幕。关于“突破新闻”和“良好新闻”数据集的广泛实验表明我们拟议方法的有效性,它超越了其他状态的艺术解析。ICECAP/CAPICI可以公开查阅 http://GIAPCM/CAPICE。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
专知会员服务
54+阅读 · 2021年9月3日
专知会员服务
155+阅读 · 2021年3月6日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
4+阅读 · 2019年8月7日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
7+阅读 · 2018年4月21日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
相关论文
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
4+阅读 · 2019年8月7日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
7+阅读 · 2018年4月21日
Arxiv
3+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员