因果关系知识对于构建健壮的人工智能系统至关重要。在需要因果推理的任务中,深度学习模型通常表现不佳。因果推理通常是通过某种形式的常识性知识推导出来的,这些常识性知识不是直接输入的,而是由人类隐式推断出来的。先前的工作已经揭示了在因果关系缺失的情况下,模型会陷入虚假的观测偏差。虽然语言表征模型在习得的嵌入中保留了语境知识,但它们在训练中不考虑因果关系。通过将因果关系与输入特征融合到现有模型中执行视觉认知任务(如场景理解、视频字幕、视频问答等),可以获得更好的性能,因为因果关系带来的洞察力。最近,已经提出了几个模型来处理从视觉或文本模态中挖掘因果数据的任务。然而,目前还没有广泛流行的研究通过视觉和语言模式的并列来挖掘因果关系。图像为我们提供了丰富且易于处理的资源来挖掘因果关系知识,而视频则更加密集,由自然的时间顺序事件组成。此外,文本信息提供了视频中可能隐含的细节。因此,我们提出了iReason,这是一个利用视频和自然语言字幕推断视觉语义常识的框架。此外,iReason的架构集成了一个因果合理化模块,以辅助解释、错误分析和偏差检测的过程。我们通过与语言表征学习模型(BERT, GPT-2)以及当前最先进的多模态因果模型的双管比较分析,证明了iReason的有效性。最后,我们通过将“因果信号”整合到一系列下游认知任务(如密集视频字幕、视频问答和场景理解)中的案例研究,证明了iReason的普遍适用性。

https://www.zhuanzhi.ai/paper/7e370c38d06cbb2ea08ab41e2167a9a9

成为VIP会员查看完整内容
35

相关内容

人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
46+阅读 · 2021年9月27日
专知会员服务
19+阅读 · 2021年9月13日
专知会员服务
62+阅读 · 2021年8月4日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
74+阅读 · 2020年9月25日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
37+阅读 · 2020年8月8日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
MSRA:基于推理的多轮语义分析和问答
DataFunTalk
5+阅读 · 2019年11月22日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
OpenAI NLP最新进展:通过无监督学习提升语言理解
人工智能头条
6+阅读 · 2018年6月18日
Using Scene Graph Context to Improve Image Generation
Arxiv
15+阅读 · 2018年4月5日
Arxiv
20+阅读 · 2018年1月17日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关资讯
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
MSRA:基于推理的多轮语义分析和问答
DataFunTalk
5+阅读 · 2019年11月22日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
OpenAI NLP最新进展:通过无监督学习提升语言理解
人工智能头条
6+阅读 · 2018年6月18日
微信扫码咨询专知VIP会员