Current image captioning approaches generate descriptions which lack specific information, such as named entities that are involved in the images. In this paper we propose a new task which aims to generate informative image captions, given images and hashtags as input. We propose a simple but effective approach to tackle this problem. We first train a convolutional neural networks - long short term memory networks (CNN-LSTM) model to generate a template caption based on the input image. Then we use a knowledge graph based collective inference algorithm to fill in the template with specific named entities retrieved via the hashtags. Experiments on a new benchmark dataset collected from Flickr show that our model generates news-style image descriptions with much richer information. Our model outperforms unimodal baselines significantly with various evaluation metrics.


翻译:目前的图像说明方法产生缺乏具体信息的描述, 例如参与图像的命名实体。 在本文中, 我们提议一项新的任务, 目的是生成信息化图像说明, 提供图像和标签作为输入。 我们提出一个简单但有效的方法来解决这个问题。 我们首先训练一个革命性神经网络 - 长期短期记忆网络( CNN- LSTM) 模型, 以生成基于输入图像的模板说明。 然后我们使用基于集体推断算法的知识性图表, 用通过标签检索的具体名称实体填充模板。 对从Flickr收集的新基准数据集的实验显示, 我们的模型以更丰富的信息生成了新式图像描述。 我们的模型在各种评估指标上明显地超越了单式基线 。

4
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
Top
微信扫码咨询专知VIP会员