Most attention-based image captioning models attend to the image once per word. However, attending once per word is rigid and is easy to miss some information. Attending more times can adjust the attention position, find the missing information back and avoid generating the wrong word. In this paper, we show that attending more times per word can gain improvements in the image captioning task. We propose a flexible two-LSTM merge model to make it convenient to encode more attentions than words. Our captioning model uses two LSTMs to encode the word sequence and the attention sequence respectively. The information of the two LSTMs and the image feature are combined to predict the next word. Experiments on the MSCOCO caption dataset show that our method outperforms the state-of-the-art. Using bottom up features and self-critical training method, our method gets BLEU-4, METEOR, ROUGE-L and CIDEr scores of 0.381, 0.283, 0.580 and 1.261 on the Karpathy test split.


翻译:多数关注的图像字幕模型对图像每个单词都关注一次。 但是, 一次访问每个单词是僵硬的, 容易丢失某些信息 。 更多时间的处理可以调整关注位置, 找到缺失的信息, 避免生成错误的单词 。 在本文中, 我们显示每个单词多关注一次可以改进图像字幕任务 。 我们提议一个灵活的两个LSTM 合并模型, 以便于将更多的注意力比单词进行编码 。 我们的字幕模型使用两个LSTM 来分别对单词序列和注意序列进行编码 。 两个 LSTM 和图像特征的信息可以合并来预测下一个单词 。 对 MSCO 字幕数据集的实验显示, 我们的方法比最新工艺要好 。 使用自下而上的特点和自我批评的培训方法, 我们的方法在 Karpathic 测试分法上得到了 BLEU-4、 METEOR、 ROUGEL 和 CIDER 分数为0. 381、 0. 283、 0. 0. 580 和 1. 261 。

6
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
67+阅读 · 2020年2月29日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
67+阅读 · 2020年2月29日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
相关论文
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
3+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员