Recently, much advance has been made in image captioning, and an encoder-decoder framework has achieved outstanding performance for this task. In this paper, we propose an extension of the encoder-decoder framework by adding a component called guiding network. The guiding network models the attribute properties of input images, and its output is leveraged to compose the input of the decoder at each time step. The guiding network can be plugged into the current encoder-decoder framework and trained in an end-to-end manner. Hence, the guiding vector can be adaptively learned according to the signal from the decoder, making itself to embed information from both image and language. Additionally, discriminative supervision can be employed to further improve the quality of guidance. The advantages of our proposed approach are verified by experiments carried out on the MS COCO dataset.


翻译:最近,在图像字幕方面已经取得了很大进展,而编码器-编码器-编码器框架已经取得了这一任务的杰出业绩。 在本文件中,我们建议通过添加一个名为指导网络的组件来扩展编码器-编码器框架。指导网络模型是输入图像的属性,其输出被利用来组成每个步骤的解码器输入。指导网络可以插进目前的编码器-编码器框架,并以端到端的方式进行培训。因此,指导矢量可以根据解码器的信号来适应性地学习,从而将图像和语言的信息都嵌入其中。此外,还可以利用歧视性的监督来进一步提高指导质量。我们拟议方法的优点可以通过在MS COCO数据集上进行的实验来验证。

6
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Image Captioning based on Deep Reinforcement Learning
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
3+阅读 · 2018年3月14日
VIP会员
相关VIP内容
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
相关论文
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Image Captioning based on Deep Reinforcement Learning
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
3+阅读 · 2018年3月14日
Top
微信扫码咨询专知VIP会员