Visual Question Answering (VQA) is concerned with answering free-form questions about an image. Since it requires a deep semantic and linguistic understanding of the question and the ability to associate it with various objects that are present in the image, it is an ambitious task and requires multi-modal reasoning from both computer vision and natural language processing. We propose Graphhopper, a novel method that approaches the task by integrating knowledge graph reasoning, computer vision, and natural language processing techniques. Concretely, our method is based on performing context-driven, sequential reasoning based on the scene entities and their semantic and spatial relationships. As a first step, we derive a scene graph that describes the objects in the image, as well as their attributes and their mutual relationships. Subsequently, a reinforcement learning agent is trained to autonomously navigate in a multi-hop manner over the extracted scene graph to generate reasoning paths, which are the basis for deriving answers. We conduct an experimental study on the challenging dataset GQA, based on both manually curated and automatically generated scene graphs. Our results show that we keep up with a human performance on manually curated scene graphs. Moreover, we find that Graphhopper outperforms another state-of-the-art scene graph reasoning model on both manually curated and automatically generated scene graphs by a significant margin.


翻译:视觉问题解答( VQA) 涉及解答关于图像的自由形式问题。 由于它需要对这一问题有深刻的语义和语言理解, 并且能够将其与图像中存在的各种对象联系起来, 这是一项雄心勃勃的任务, 需要计算机视觉和自然语言处理的多式推理。 我们提议了Gaphepper, 这是一种创新的方法, 通过整合知识图形推理、 计算机视觉和自然语言处理技术来应对任务。 具体地说, 我们的方法基于基于现场实体及其语义和空间关系进行背景驱动、 顺序推理。 作为第一步, 我们得出一个描述图像中对象及其属性和相互关系的场景图。 随后, 一个强化学习剂经过培训, 能够以多角度在提取的场景图上自主导航, 从而产生推理路径, 这是解答案的基础。 我们对具有挑战性的 GQA 进行一项实验性研究, 其基础是手动的和自动生成的场景图。 我们的结果显示, 我们用手动的曲线图显示, 将人类的性表现与手动的场景场景图一样, 以及另一个手动的平面图都以手动的平面图成。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
Arxiv
1+阅读 · 2021年9月16日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
Top
微信扫码咨询专知VIP会员