Existing visual question answering methods tend to capture the cross-modal spurious correlations and fail to discover the true causal mechanism that facilitates reasoning truthfully based on the dominant visual evidence and the question intention. Additionally, the existing methods usually ignore the cross-modal event-level understanding that requires to jointly model event temporality, causality, and dynamics. In this work, we focus on event-level visual question answering from a new perspective, i.e., cross-modal causal relational reasoning, by introducing causal intervention methods to discover the true causal structures for visual and linguistic modalities. Specifically, we propose a novel event-level visual question answering framework named Cross-Modal Causal RelatIonal Reasoning (CMCIR), to achieve robust causality-aware visual-linguistic question answering. To discover cross-modal causal structures, the Causality-aware Visual-Linguistic Reasoning (CVLR) module is proposed to collaboratively disentangle the visual and linguistic spurious correlations via front-door and back-door causal interventions. To model the fine-grained interactions between linguistic semantics and spatial-temporal representations, we build a Spatial-Temporal Transformer (STT) that creates multi-modal co-occurrence interactions between visual and linguistic content. To adaptively fuse the causality-ware visual and linguistic features, we introduce a Visual-Linguistic Feature Fusion (VLFF) module that leverages the hierarchical linguistic semantic relations as the guidance to learn the global semantic-aware visual-linguistic representations adaptively. Extensive experiments on four event-level datasets demonstrate the superiority of our CMCIR in discovering visual-linguistic causal structures and achieving robust event-level visual question answering.


翻译:现有的视觉问答方法往往捕捉到跨模态的虚假相关性,未能发现真正促进基于主导视觉证据和问题意图的真实推理的真正因果机制。此外,现有方法通常忽略跨模态的事件级理解,需要联合建模事件时间性、因果性和动态性。在这项工作中,我们从新的角度,即跨模态因果关系推理,着眼于事件级视觉问答,通过引入因果干预方法来发现视觉和语言模态的真正因果结构。具体地,我们提出了一种新的事件级视觉问答框架,名为跨模态因果关系推理(CMCIR),以实现强大的因果感知视觉语言问答。为了发现跨模态的因果结构,我们提出了一种名为因果感知视觉语言推理(CVLR)模块,通过前门和后门因果干预协同分离视觉和语言的虚假相关性。为了建模语言语义和空间 - 时间表征之间的细粒度交互,我们构建了一个空间 - 时间变压器(STT),它创建了视觉和语言内容之间的多模态共现交互。为了自适应地融合因果感知的视觉和语言特征,我们引入了一个名为视觉语言特征融合(VLFF)模块,它利用分层语言语义关系作为指导来自适应地学习全局语义感知的视觉 - 语言表示。在四个事件级数据集上的大量实验表明,我们的CMCIR在发现视觉语言因果结构和实现强大的事件级视觉问答方面具有优越性。

1
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
因果关联学习,Causal Relational Learning
专知会员服务
182+阅读 · 2020年4月21日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
15+阅读 · 2021年11月19日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关VIP内容
因果关联学习,Causal Relational Learning
专知会员服务
182+阅读 · 2020年4月21日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员