Image captioning is a challenging task that combines the field of computer vision and natural language processing. A variety of approaches have been proposed to achieve the goal of automatically describing an image, and recurrent neural network (RNN) or long-short term memory (LSTM) based models dominate this field. However, RNNs or LSTMs cannot be calculated in parallel and ignore the underlying hierarchical structure of a sentence. In this paper, we propose a framework that only employs convolutional neural networks (CNNs) to generate captions. Owing to parallel computing, our basic model is around 3 times faster than NIC (an LSTM-based model) during training time, while also providing better results. We conduct extensive experiments on MSCOCO and investigate the influence of the model width and depth. Compared with LSTM-based models that apply similar attention mechanisms, our proposed models achieves comparable scores of BLEU-1,2,3,4 and METEOR, and higher scores of CIDEr. We also test our model on the paragraph annotation dataset, and get higher CIDEr score compared with hierarchical LSTMs


翻译:图像字幕是一项具有挑战性的任务,将计算机视觉和自然语言处理领域结合起来。提出了各种办法,以实现自动描述图像和经常神经网络(RNN)或长期短期内存(LSTM)模型的目标。然而,无法同时计算出RNN或LSTM(LSTM),忽视了一个句子的基本等级结构。在本文件中,我们提议了一个框架,仅使用进化神经网络(CNN)来生成字幕。由于平行计算,我们的基本模型在培训期间比NIC(以LSTM为基础的模型)快3倍左右,同时也提供了更好的结果。我们在MSCO(M)上进行了广泛的实验,并调查模型宽度和深度的影响。与应用类似关注机制的LSTM模型相比,我们拟议的模型的分数与BLEU1、2、3、4和METEOR相当,CIDr的分数也较高。我们还测试了我们关于段落注释数据集的模型,并且获得CIDER等级LSTMS的较高分数。

21
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
4+阅读 · 2019年8月7日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年5月13日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关论文
Arxiv
4+阅读 · 2019年8月7日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年5月13日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
3+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员