We study the problem of weakly supervised grounded image captioning. That is, given an image, the goal is to automatically generate a sentence describing the context of the image with each noun word grounded to the corresponding region in the image. This task is challenging due to the lack of explicit fine-grained region word alignments as supervision. Previous weakly supervised methods mainly explore various kinds of regularization schemes to improve attention accuracy. However, their performances are still far from the fully supervised ones. One main issue that has been ignored is that the attention for generating visually groundable words may only focus on the most discriminate parts and can not cover the whole object. To this end, we propose a simple yet effective method to alleviate the issue, termed as partial grounding problem in our paper. Specifically, we design a distributed attention mechanism to enforce the network to aggregate information from multiple spatially different regions with consistent semantics while generating the words. Therefore, the union of the focused region proposals should form a visual region that encloses the object of interest completely. Extensive experiments have demonstrated the superiority of our proposed method compared with the state-of-the-arts.


翻译:我们研究的是受监管不足的图像字幕问题。根据图像,目标是自动生成一个句子来描述图像的背景,每个字都以图像中相应的区域为基础。这项任务具有挑战性,因为缺乏明确的细微区域字对齐作为监督。以前受监管薄弱的方法主要探索各种类型的正规化计划以提高关注度。然而,它们的性能仍远非完全监督的常规化计划。一个被忽略的主要问题是,产生可见的可变语言的注意力可能只集中在最歧视的部分,不能覆盖整个目标。为此,我们提出了一个简单而有效的方法来缓解这一问题,在我们的文件中被称为部分基础问题。具体地说,我们设计了一个分散的关注机制,从多个不同空间区域收集信息,在生成语言时具有一致的语义性。因此,集中区域提案的结合应该形成一个完全包含着兴趣标的视觉区域。广泛的实验表明,我们拟议方法优于状态艺术。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
Google最新《机器学习对偶性》报告,48页ppt
专知会员服务
35+阅读 · 2020年11月29日
专知会员服务
52+阅读 · 2020年11月17日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
VIP会员
Top
微信扫码咨询专知VIP会员