Answering visual questions need acquire daily common knowledge and model the semantic connection among different parts in images, which is too difficult for VQA systems to learn from images with the only supervision from answers. Meanwhile, image captioning systems with beam search strategy tend to generate similar captions and fail to diversely describe images. To address the aforementioned issues, we present a system to have these two tasks compensate with each other, which is capable of jointly producing image captions and answering visual questions. In particular, we utilize question and image features to generate question-related captions and use the generated captions as additional features to provide new knowledge to the VQA system. For image captioning, our system attains more informative results in term of the relative improvements on VQA tasks as well as competitive results using automated metrics. Applying our system to the VQA tasks, our results on VQA v2 dataset achieve 65.8% using generated captions and 69.1% using annotated captions in validation set and 68.4% in the test-standard set. Further, an ensemble of 10 models results in 69.7% in the test-standard split.


翻译:答案的视觉问题需要获得日常的共同知识,并模拟图像中不同部分之间的语义联系,这对VQA系统来说太难从图像中学习,只有从答案的监管才能从图像中学习。 同时,带梁搜索策略的图像字幕系统往往产生相似的字幕,无法以不同的方式描述图像。为了解决上述问题,我们提出了一个系统,使这两个任务相互弥补,能够联合制作图像字幕和回答视觉问题。特别是,我们利用问题和图像特征生成与问题相关的字幕,并使用生成的字幕作为额外功能为VQA系统提供新知识。关于图像字幕,我们的系统在VQA任务的相对改进方面,以及在使用自动测量仪的竞争结果方面,取得了更多信息效果。在VQA任务中应用我们的系统,我们关于VQA v2数据集的结果使用生成的字幕达到65.8%,在测试标准集中使用附加说明的字幕达到69.1%。此外,在测试标准分割中,10个模型的结果达到69.7%。

6
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
计算机视觉领域顶会CVPR 2018 接受论文列表
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员