Recent VQA models may tend to rely on language bias as a shortcut and thus fail to sufficiently learn the multi-modal knowledge from both vision and language. In this paper, we investigate how to capture and mitigate language bias in VQA. Motivated by causal effects, we proposed a novel counterfactual inference framework, which enables us to capture the language bias as the direct causal effect of questions on answers and reduce the language bias by subtracting the direct language effect from the total causal effect. Experiments demonstrate that our proposed counterfactual inference framework 1) is general to various VQA backbones and fusion strategies, 2) achieves competitive performance on the language-bias sensitive VQA-CP dataset while performs robustly on the balanced VQA v2 dataset.


翻译:最近的VQA模式可能倾向于以语言偏见作为捷径,从而无法充分从视觉和语言两方面学习多模式知识。在本文中,我们调查如何在VQA中捕捉和减少语言偏见。出于因果关系的动机,我们提出了一个新的反事实推论框架,使我们能够将语言偏见作为问题对答案的直接因果关系,并通过从总的因果关系效果中减去直接语言影响来减少语言偏见。实验表明,我们提议的反事实推论框架 1 1 与各种VQA的骨干和聚合战略是一般性的,2 在对语言偏见敏感的VQA-CP数据集上取得竞争性表现,同时在平衡的VQA v2数据集上表现有力。

15
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICLR2021】彩色化变换器,Colorization Transformer
专知会员服务
10+阅读 · 2021年2月9日
专知会员服务
38+阅读 · 2020年10月15日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
注意力机制介绍,Attention Mechanism
专知会员服务
169+阅读 · 2019年10月13日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员