Answering semantically-complicated questions according to an image is challenging in Visual Question Answering (VQA) task. Although the image can be well represented by deep learning, the question is always simply embedded and cannot well indicate its meaning. Besides, the visual and textual features have a gap for different modalities, it is difficult to align and utilize the cross-modality information. In this paper, we focus on these two problems and propose a Graph Matching Attention (GMA) network. Firstly, it not only builds graph for the image, but also constructs graph for the question in terms of both syntactic and embedding information. Next, we explore the intra-modality relationships by a dual-stage graph encoder and then present a bilateral cross-modality graph matching attention to infer the relationships between the image and the question. The updated cross-modality features are then sent into the answer prediction module for final answer prediction. Experiments demonstrate that our network achieves state-of-the-art performance on the GQA dataset and the VQA 2.0 dataset. The ablation studies verify the effectiveness of each modules in our GMA network.


翻译:在视觉问答(VQA)任务中,根据图像回答复杂的语义问题具有挑战性。虽然图像可以通过深层学习得到很好的反映,但问题总是简单的嵌入,不能很好地说明其含义。此外,视觉和文字特征对于不同模式存在差距,因此很难对跨模式信息加以协调和利用。在本文中,我们集中关注这两个问题并提出一个匹配关注的图表(GMA)网络。首先,它不仅为图像建图,而且还在合成和嵌入信息方面为问题建图。接下来,我们通过双阶段图形编码器探索内部模式关系,然后提出双边交叉模式图,将注意力匹配到图像和问题之间的关系。更新的交叉模式特征随后被发送到最后答案预测的答案预测模块中。实验表明,我们的网络在GQA数据集和VQA2.0数据集方面都取得了最新水平的性能。在我们的GA网络中,每个模块的有效性都得到了核实。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
一文读懂图卷积GCN
AINLP
4+阅读 · 2019年12月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Arxiv
3+阅读 · 2018年11月29日
VIP会员
Top
微信扫码咨询专知VIP会员