Knowledge-Based Visual Question Answering (KBVQA) is a bi-modal task requiring external world knowledge in order to correctly answer a text question and associated image. Recent single modality text work has shown knowledge injection into pre-trained language models, specifically entity enhanced knowledge graph embeddings, can improve performance on downstream entity-centric tasks. In this work, we empirically study how and whether such methods, applied in a bi-modal setting, can improve an existing VQA system's performance on the KBVQA task. We experiment with two large publicly available VQA datasets, (1) KVQA which contains mostly rare Wikipedia entities and (2) OKVQA which is less entity-centric and more aligned with common sense reasoning. Both lack explicit entity spans and we study the effect of different weakly supervised and manual methods for obtaining them. Additionally we analyze how recently proposed bi-modal and single modal attention explanations are affected by the incorporation of such entity enhanced representations. Our results show substantial improved performance on the KBVQA task without the need for additional costly pre-training and we provide insights for when entity knowledge injection helps improve a model's understanding. We provide code and enhanced datasets for reproducibility.


翻译:以知识为基础的视觉问题解答(KBVQA)是一项双模式任务,需要外部世界知识,以正确回答文本问题和相关图像。最近单一模式文本工作显示,知识注入到培训前的语言模型中,具体地说,实体强化知识图嵌入,可以改进下游实体中心任务的业绩。在这项工作中,我们通过经验研究,在双模式环境下应用的这些方法如何和是否改进现有的VQA系统在KBVQA任务中的绩效。我们试验两个大型公开提供的VQA数据集:(1)KVQA,其中大多包含罕见的维基百科实体实体实体实体实体核心,并且与常识推理更加一致。两个实体都缺乏明确的实体,我们研究不同的薄弱监管和人工方法的影响,以获得这些方法。此外,我们分析最近提出的双模式和单一模式关注解释如何受到纳入这种实体强化表述的影响。我们的结果显示,KBQA任务的业绩大为改善,而不需要额外的昂贵的预先培训,我们在实体知识注入增强的模型时提供洞察力。

0
下载
关闭预览

相关内容

知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
97+阅读 · 2020年8月24日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG
开放知识图谱
6+阅读 · 2018年10月30日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Arxiv
6+阅读 · 2018年5月22日
VIP会员
相关资讯
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
论文浅尝 | EARL: Joint Entity and Relation Linking for QA over KG
开放知识图谱
6+阅读 · 2018年10月30日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Top
微信扫码咨询专知VIP会员