Image captioning is an interdisciplinary research problem that stands between computer vision and natural language processing. The task is to generate a textual description of the content of an image. The typical model used for image captioning is an encoder-decoder deep network, where the encoder captures the essence of an image while the decoder is responsible for generating a sentence describing the image. Attention mechanisms can be used to automatically focus the decoder on parts of the image which are relevant to predict the next word. In this paper, we explore different decoders and attentional models popular in neural machine translation, namely attentional recurrent neural networks, self-attentional transformers, and fully-convolutional networks, which represent the current state of the art of neural machine translation. The image captioning module is available as part of SOCKEYE at https://github.com/awslabs/sockeye which tutorial can be found at https://awslabs.github.io/sockeye/image_captioning.html .


翻译:图像字幕是一个跨学科的研究问题,存在于计算机视觉和自然语言处理之间。 任务在于生成图像内容的文字描述。 用于图像字幕的典型模型是一个深网络编码器- 解码器, 编码器捕捉图像的精髓, 而解码器则负责生成描述图像的句子。 注意机制可以用来自动将解码器的焦点集中在图像中与预测下一个词相关的部分。 在本文中, 我们探索神经机器翻译中流行的不同解码器和关注模型, 即注意的经常神经网络、 自我注意变异器和完全进化网络, 它代表神经机器翻译的艺术现状。 图像字幕模块作为 SOCKEEE 的一部分, 可在https://github.com/awslabs/sockeyeye https://awslabs.github.io/sockeyeye/image_captioning.html上查阅。

3
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
6+阅读 · 2018年2月28日
Arxiv
20+阅读 · 2018年1月17日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关论文
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
6+阅读 · 2018年2月28日
Arxiv
20+阅读 · 2018年1月17日
Top
微信扫码咨询专知VIP会员