Visual Question Answering (VQA) requires integration of feature maps with drastically different structures and focus of the correct regions. Image descriptors have structures at multiple spatial scales, while lexical inputs inherently follow a temporal sequence and naturally cluster into semantically different question types. A lot of previous works use complex models to extract feature representations but neglect to use high-level information summary such as question types in learning. In this work, we propose Question Type-guided Attention (QTA). It utilizes the information of question type to dynamically balance between bottom-up and top-down visual features, respectively extracted from ResNet and Faster R-CNN networks. We experiment with multiple VQA architectures with extensive input ablation studies over the TDIUC dataset and show that QTA systematically improves the performance by more than 5% across multiple question type categories such as "Activity Recognition", "Utility" and "Counting" on TDIUC dataset. By adding QTA on the state-of-art model MCB, we achieve 3% improvement for overall accuracy. Finally, we propose a multi-task extension to predict question types which generalizes QTA to applications that lack of question type, with minimal performance loss.


翻译:视觉问题解答(VQA) 需要将地貌图与差异巨大的结构和正确区域的重点整合在一起。图像描述符有多个空间尺度的结构,而词汇输入本身就遵循一个时间序列,自然地分组成不同的问题类型。许多以前的工作都使用复杂的模型来提取特征描述,但忽略了使用高层次信息摘要,如学习中的问题类型。在这项工作中,我们建议使用问题类型引导注意(QTA)。它利用问题类型的信息来动态平衡自下而上和自上而下的视觉特征,分别取自ResNet和快速R-CNN网络。我们试验多个VQA结构,对TDIUC数据集进行广泛的投入反动研究,并表明QTA系统在多个问题类型类别(如“行为识别”、“效用”和“补偿”)中系统地提高性能。通过在高层次模型MCB中添加问题类型(即状态模型和自上至下至下方的视觉特征特征)之间动态平衡,我们在总体准确性方面实现了3%的改进。最后,我们提议对多塔克类型应用的扩展问题进行最低限度的预测,以预测。

5
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
计算机视觉领域顶会CVPR 2018 接受论文列表
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
Top
微信扫码咨询专知VIP会员