Image captioning models typically follow an encoder-decoder architecture which uses abstract image feature vectors as input to the encoder. One of the most successful algorithms uses feature vectors extracted from the region proposals obtained from an object detector. In this work we introduce the Object Relation Transformer, that builds upon this approach by explicitly incorporating information about the spatial relationship between input detected objects through geometric attention. Quantitative and qualitative results demonstrate the importance of such geometric attention for image captioning, leading to improvements on all common captioning metrics on the MS-COCO dataset.


翻译:图像说明模型通常遵循编码器-解码器结构,该结构使用抽象图像特征矢量作为编码器的投入。最成功的算法之一使用从一个物体探测器获得的区域建议中提取的特征矢量。在这项工作中,我们引入了对象关系变换器,该变换器以这种方法为基础,通过几何注意明确纳入关于输入检测到的物体之间的空间关系的信息。定量和定性结果表明,这种几何关注对于图像说明的重要性,从而改进了MS-COCO数据集上所有通用说明指标。

7
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
[综述]深度学习下的场景文本检测与识别
专知会员服务
76+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
269+阅读 · 2019年10月9日
Image Captioning 36页最新综述, 161篇参考文献
专知
89+阅读 · 2018年10月23日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Arxiv
4+阅读 · 2019年8月7日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
76+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
269+阅读 · 2019年10月9日
相关论文
Arxiv
4+阅读 · 2019年8月7日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Top
微信扫码咨询专知VIP会员