【CVPR2021】基于反事实推断的视觉问答框架 - 专知VIP

会员服务 ·

2

CVPR 2021 · 反事实推断 · 视觉问答 ·

2021 年 3 月 4 日

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文题目：Counterfactual VQA: A Cause-Effect Look at Language Bias

作者：牛玉磊，汤凯华，张含望，卢志武，华先胜，文继荣

论文概述：近期研究发现，视觉问答模型在训练过程中会倾向于探索数据中的语言偏差，并依赖语言偏差进行推理和作答。这一倾向使得视觉问答模型未能充分地从视觉和语言两个模态中学习多模态知识，进而做出错误的回答。本文研究如何将视觉问答任务中的语言偏差进行捕获并去除。本文从因果推理的视角出发，提出了一种全新的基于反事实推断的视觉问答框架。反事实推断框架将语言偏差建模为问题对答案的直接因果效应，并通过从总体因果效应中减去语言的直接效应的方式去除语言偏差。实验证明反事实推断框架能够有效地克服语言偏差的影响，并具有良好的泛化性和鲁棒性。此外，本文从因果推理的角度为部分相关工作提供了理论解释。

https://www.zhuanzhi.ai/paper/f473e5b1a4c67df978867288e72d73f6

成为VIP会员查看完整内容

27

相关内容

CVPR 2021

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

58+阅读 · 2021年3月31日

【CVPR2021】动态度量学习

【CVPR2021】动态度量学习

专知会员服务

40+阅读 · 2021年3月30日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

近期必读的六篇 ICML 2020【对比学习】相关论文

近期必读的六篇 ICML 2020【对比学习】相关论文

专知会员服务

57+阅读 · 2020年9月15日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

开放知识图谱

14+阅读 · 2020年9月24日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知

9+阅读 · 2020年8月28日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

用这种方法实现无监督端到端图像分类！（附论文）

用这种方法实现无监督端到端图像分类！（附论文）

数据派THU

8+阅读 · 2018年8月10日

论文浅尝 | 动态词嵌入

论文浅尝 | 动态词嵌入

开放知识图谱

3+阅读 · 2018年4月19日

NIPS 2017论文解读 | 基于对比学习的Image Captioning

NIPS 2017论文解读 | 基于对比学习的Image Captioning

PaperWeekly

6+阅读 · 2018年2月28日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

Counterfactual VQA: A Cause-Effect Look at Language Bias

Arxiv

16+阅读 · 2020年12月28日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Inverse Visual Question Answering with Multi-Level Attentions

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

4+阅读 · 2019年9月17日

Few-shot Adaptive Faster R-CNN

Few-shot Adaptive Faster R-CNN

Arxiv

3+阅读 · 2019年3月22日

Improving Question Answering by Commonsense-Based Pre-Training

Arxiv

4+阅读 · 2019年3月1日

Read + Verify: Machine Reading Comprehension with Unanswerable Questions

Arxiv

3+阅读 · 2018年11月15日

iVQA: Inverse Visual Question Answering

Arxiv

5+阅读 · 2018年3月16日

Interpretable Counting for Visual Question Answering

Arxiv

6+阅读 · 2018年3月2日

Interpretable Convolutional Neural Networks

Arxiv

22+阅读 · 2018年2月14日

VQA: Visual Question Answering

Arxiv

9+阅读 · 2016年10月27日

VIP会员

相关主题

反事实推断

相关VIP内容

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

58+阅读 · 2021年3月31日

【CVPR2021】动态度量学习

【CVPR2021】动态度量学习

专知会员服务

40+阅读 · 2021年3月30日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

近期必读的六篇 ICML 2020【对比学习】相关论文

近期必读的六篇 ICML 2020【对比学习】相关论文

专知会员服务

57+阅读 · 2020年9月15日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

白宫发布《赢得AI竞赛：美国人工智能行动计划》最新28页

地下战：地下空间的战略博弈

《美地下作战条令手册》228页

相关资讯

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

开放知识图谱

14+阅读 · 2020年9月24日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知

9+阅读 · 2020年8月28日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

用这种方法实现无监督端到端图像分类！（附论文）

用这种方法实现无监督端到端图像分类！（附论文）

数据派THU

8+阅读 · 2018年8月10日

论文浅尝 | 动态词嵌入

论文浅尝 | 动态词嵌入

开放知识图谱

3+阅读 · 2018年4月19日

NIPS 2017论文解读 | 基于对比学习的Image Captioning

NIPS 2017论文解读 | 基于对比学习的Image Captioning

PaperWeekly

6+阅读 · 2018年2月28日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

相关论文

Counterfactual VQA: A Cause-Effect Look at Language Bias

Arxiv

16+阅读 · 2020年12月28日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Inverse Visual Question Answering with Multi-Level Attentions

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

4+阅读 · 2019年9月17日

Few-shot Adaptive Faster R-CNN

Few-shot Adaptive Faster R-CNN

Arxiv

3+阅读 · 2019年3月22日

Improving Question Answering by Commonsense-Based Pre-Training

Arxiv

4+阅读 · 2019年3月1日

Read + Verify: Machine Reading Comprehension with Unanswerable Questions

Arxiv

3+阅读 · 2018年11月15日

iVQA: Inverse Visual Question Answering

Arxiv

5+阅读 · 2018年3月16日

Interpretable Counting for Visual Question Answering

Arxiv

6+阅读 · 2018年3月2日

Interpretable Convolutional Neural Networks

Arxiv

22+阅读 · 2018年2月14日

VQA: Visual Question Answering

Arxiv

9+阅读 · 2016年10月27日

微信扫码咨询专知VIP会员