Image captioning has attracted ever-increasing research attention in the multimedia community. To this end, most cutting-edge works rely on an encoder-decoder framework with attention mechanisms, which have achieved remarkable progress. However, such a framework does not consider scene concepts to attend visual information, which leads to sentence bias in caption generation and defects the performance correspondingly. We argue that such scene concepts capture higher-level visual semantics and serve as an important cue in describing images. In this paper, we propose a novel scene-based factored attention module for image captioning. Specifically, the proposed module first embeds the scene concepts into factored weights explicitly and attends the visual information extracted from the input image. Then, an adaptive LSTM is used to generate captions for specific scene types. Experimental results on Microsoft COCO benchmark show that the proposed scene-based attention module improves model performance a lot, which outperforms the state-of-the-art approaches under various evaluation metrics.


翻译:图像字幕在多媒体界引起了越来越多的研究关注。 为此,大多数尖端作品都依赖于带有关注机制的编码器-编码器框架,并取得了显著的进展。然而,这样一个框架并不考虑视觉信息方面的现场概念,从而导致字幕生成中的判词偏差,相应的性能也有缺陷。我们认为,这些场景概念可以捕捉更高层次的视觉语义,并成为描述图像的重要提示。在本文中,我们提议为图像字幕建立一个基于新颖的场景要素关注模块。具体地说,拟议的模块首先将场景概念明确嵌入要素加权,并观看从输入图像中提取的视觉信息。然后,一个适应性 LSTM被用于生成特定场景类型的字幕。微软COCO基准的实验结果显示,拟议的场景关注模块大大改进了模型性能,超过了各种评价指标下的最新方法。

4
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
110+阅读 · 2020年2月22日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
36+阅读 · 2020年1月10日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Arxiv
3+阅读 · 2019年3月29日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员