因果关系知识对于构建健壮的人工智能系统至关重要。在需要因果推理的任务中,深度学习模型通常表现不佳。因果推理通常是通过某种形式的常识性知识推导出来的,这些常识性知识不是直接输入的,而是由人类隐式推断出来的。先前的工作已经揭示了在因果关系缺失的情况下,模型会陷入虚假的观测偏差。虽然语言表征模型在习得的嵌入中保留了语境知识,但它们在训练中不考虑因果关系。通过将因果关系与输入特征融合到现有模型中执行视觉认知任务(如场景理解、视频字幕、视频问答等),可以获得更好的性能,因为因果关系带来的洞察力。最近,已经提出了几个模型来处理从视觉或文本模态中挖掘因果数据的任务。然而,目前还没有广泛流行的研究通过视觉和语言模式的并列来挖掘因果关系。图像为我们提供了丰富且易于处理的资源来挖掘因果关系知识,而视频则更加密集,由自然的时间顺序事件组成。此外,文本信息提供了视频中可能隐含的细节。因此,我们提出了iReason,这是一个利用视频和自然语言字幕推断视觉语义常识的框架。此外,iReason的架构集成了一个因果合理化模块,以辅助解释、错误分析和偏差检测的过程。我们通过与语言表征学习模型(BERT, GPT-2)以及当前最先进的多模态因果模型的双管比较分析,证明了iReason的有效性。最后,我们通过将“因果信号”整合到一系列下游认知任务(如密集视频字幕、视频问答和场景理解)中的案例研究,证明了iReason的普遍适用性。
https://www.zhuanzhi.ai/paper/7e370c38d06cbb2ea08ab41e2167a9a9