It is always well believed that modeling relationships between objects would be helpful for representing and eventually describing an image. Nevertheless, there has not been evidence in support of the idea on image description generation. In this paper, we introduce a new design to explore the connections between objects for image captioning under the umbrella of attention-based encoder-decoder framework. Specifically, we present Graph Convolutional Networks plus Long Short-Term Memory (dubbed as GCN-LSTM) architecture that novelly integrates both semantic and spatial object relationships into image encoder. Technically, we build graphs over the detected objects in an image based on their spatial and semantic connections. The representations of each region proposed on objects are then refined by leveraging graph structure through GCN. With the learnt region-level features, our GCN-LSTM capitalizes on LSTM-based captioning framework with attention mechanism for sentence generation. Extensive experiments are conducted on COCO image captioning dataset, and superior results are reported when comparing to state-of-the-art approaches. More remarkably, GCN-LSTM increases CIDEr-D performance from 120.1% to 128.7% on COCO testing set.


翻译:人们始终相信,天体之间的建模关系将有助于显示和最终描述图像。然而,在技术上,我们没有证据支持图像描述生成的概念。在本文中,我们引入了一个新的设计,以探索在关注的编码器-解码器框架保护伞下图像字幕对象之间的联系。具体地说,我们展示了图表进化网络和长短期内存(以GCN-LSTM为底盘)结构,这些结构新颖地将语义和空间物体关系纳入图像编码器。在技术上,我们根据空间和语义连接在图像中检测到的物体上绘制图表。随后,我们通过GCN利用图形结构对每个目标上的拟议区域表示进行了改进。根据学习的区域特性,我们GCN-LSTM利用基于LSTM的字幕框架,建立了生成引人注意的机制。对COCO图像标注数据集进行了广泛的实验,在与最新CO方法比较时,报告了优异的结果。更显著的是,GCN-LSTM将CIDER-D的性能从120.1%升至128。

15
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
8+阅读 · 2019年10月16日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Arxiv
4+阅读 · 2019年8月7日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
CVPR 2019视频描述(video caption)相关论文总结
极市平台
8+阅读 · 2019年10月16日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
相关论文
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Arxiv
4+阅读 · 2019年8月7日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
5+阅读 · 2018年3月30日
Top
微信扫码咨询专知VIP会员