Recently Convolutional Neural Networks have been proposed for Sequence Modelling tasks such as Image Caption Generation. However, unlike Recurrent Neural Networks, the performance of Convolutional Neural Networks as Decoders for Image Caption Generation has not been extensively studied. In this work, we analyse various aspects of Convolutional Neural Network based Decoders such as Network complexity and depth, use of Data Augmentation, Attention mechanism, length of sentences used during training, etc on performance of the model. We perform experiments using Flickr8k and Flickr30k image captioning datasets and observe that unlike Recurrent Neural Network based Decoder, Convolutional Decoder for Image Captioning does not generally benefit from increase in network depth, in the form of stacked Convolutional Layers, and also the use of Data Augmentation techniques. In addition, use of Attention mechanism also provides limited performance gains with Convolutional Decoder. Furthermore, we observe that Convolutional Decoders show performance comparable with Recurrent Decoders only when trained using sentences of smaller length which contain up to 15 words but they have limitations when trained using higher sentence lengths which suggests that Convolutional Decoders may not be able to model long-term dependencies efficiently. In addition, the Convolutional Decoder usually performs poorly on CIDEr evaluation metric as compared to Recurrent Decoder.


翻译:最近提出了用于序列建模任务的革命神经网络,如图像显示生成等。然而,与经常的神经网络不同,没有广泛研究革命神经网络作为图像显示器的演化器的性能。在这项工作中,我们分析了基于革命神经网络的分解器的各个方面,如网络的复杂度和深度、数据增加率的使用、注意机制、培训期间所用刑期长短等。我们使用Flickr8k和Flickr30k图像说明数据集进行实验,发现与经常的神经网络基于分解器的分解器不同的是,革命神经网络作为图像显示器的分解器的性能一般没有从网络深度的提高中获益,其形式是堆叠变层层,以及数据放大技术的使用。此外,使用关注机制也为革命分解器的性能增益有限。此外,我们注意到,只有在经过培训,使用较短长度的内含15个字但具有局限性的分解器,通常在经过培训后进行低级的分解后,在经过长期的递进期演后会受到限制。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
44+阅读 · 2020年9月11日
基于改进卷积神经网络的短文本分类模型
专知会员服务
26+阅读 · 2020年7月22日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
60+阅读 · 2020年5月9日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
4+阅读 · 2018年11月7日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
21+阅读 · 2018年5月23日
VIP会员
Top
微信扫码咨询专知VIP会员