因果模型与深度学习的融合引入了越来越复杂的数据集,例如图像内或文本组件间的因果关联,这已经成为一个重点研究领域。然而,将原始的因果概念和理论扩展到如此复杂的非统计数据上已经遭遇了严重的挑战。为此,我们的研究从因果结构和表示的角度提出将因果数据重新定义为三个不同的类别:确定数据、半确定数据和不确定数据。确定数据主要涉及在传统因果场景中使用的统计数据,而半确定数据指的是与深度学习相关的一系列数据格式,包括时间序列、图像、文本等。不确定数据是一个新兴的研究领域,由我们从数据形式的进展中推断出来。为了全面展示这三种数据范式,我们详细阐述了它们的正式定义、数据集中表现出的差异、解决途径以及研究的发展。我们总结了关于确定数据和半确定数据的众多研究工作中的关键任务和成就,为不确定数据提供了一条研究路线图,从其当前的研究难题开始。最后,我们分类并调研了在这三种范式中目前使用的关键数据集。
1 引言
因果模型位于机械模型和统计模型之间[204]。与统计模型一样,它们使用数据驱动的方法分析系统组件之间的关系[79, 124, 150]^1。然而,它们具有在分布转移中保持稳健性的能力[242],这意味着因果模型可以在非𝑖.𝑖.𝑑.环境中保持准确性[176, 179, 203, 221]。例如,考虑在两种不同的实验条件下同一系统的联合分布𝑃(𝑋, 𝑌)。在统计模型中,这两个联合分布可能不相等。但是,通过因果地将它们分解为𝑃(𝑋)𝑃(𝑌|𝑋)这种因子化,我们可能会得到一个稳健的分布𝑃(𝑌|𝑋),它可能代表在此系统中𝑋是𝑌的原因。当我们学习了所有组件之间的关系时,我们实际上获得了机械模型中找到的𝑑𝑥/𝑑𝑡等价物。 另一个由𝑖.𝑖.𝑑. 数据驱动的领域是机器学习,它与因果模型有着密切的关系。机器学习在广泛的𝑖.𝑖.𝑑. 数据集[53, 137, 163, 205]上取得了显著的成功,例如最近邻分类器[217]、支持向量机[93]和神经网络[242]。然而,在机器学习中准确识别的对象,在因果模型中经常无法达到相同的正确性和无偏性水平[58, 82]。当面对违反𝑖.𝑖.𝑑. 假设的任务时,机器学习显得很脆弱[128, 148, 200]。随着机器学习,特别是深度学习,在更广泛的场景中的应用,这一问题变得更加明显。因此,两个领域之间产生了交叉污染:深度学习方法和因果发现。凭借对大量𝑖.𝑖.𝑑. 数据的高效利用和开发,深度学习促进了在众多场景中的因果发现任务的出现,而因果模型,通过干预和解耦,逐渐弥补了深度学习的泛化能力和可解释性。因此,因果模型逐渐被应用于与深度学习相关的数据类型,如计算机视觉[7, 85, 87, 171]、自然语言处理[99, 224, 267]和语音识别[70, 170, 280]。 存在几篇调查论文,讨论如何从多种场景或深度学习方法中发现因果模型。在表1中,我们列出了一些代表性的调查及其重点评述。有些评述关注于因果推断方法,例如基于匹配的方法[226]、基于树的方法和基于集成的方法[12],以及动态治疗制度方法[30]。其他评论关注于因果模型的构建框架,如Granger因果模型[9, 78, 166, 213]、潜在结果框架[72, 127, 268],和结构因果模型[54, 84, 111, 204]。有些评论考察了因果分析在各种领域的应用范围,如时间序列数据[9, 166]、医疗数据[199],以及机器学习的多模态数据[54, 111, 204]。
另外,我们从两个新的角度对这些研究进行分类:基于因果模型的结构是否固定,我们将其分类为单一结构[12, 54, 72, 77, 111, 127, 175, 199, 202, 204, 226, 244, 268]和多结构研究[9, 30, 78, 84, 166, 213];基于因果变量是否需要转化为深度表示,我们将其分类为单值[9, 30, 77, 78, 84, 127, 166, 175, 199, 213, 226, 244, 268]和多值[12, 54, 72, 111, 202, 204]变量研究。结构和变量是深度学习的两个关键特征。如果因果发现任务涉及多结构数据类型,相应的深度神经网络应考虑不同结构样本的区分度[35, 119, 253, 269],甚至构建参数共享模块,这可以促进学习不同结构之间的动态性和不变性[252, 272, 292]。相反,当处理包括多值变量的数据类型时,因果变量转化为深度表示,其中几种统计优点需要重新审查,包括因果表示的不精确映射[228, 243, 264]、缺乏独立性和可采样性[49, 59, 281],以及因果强度的估计[118, 220, 238, 248]。然而,尚未有一个综合性的评论总结了从这两个角度的研究,导致研究人员在将深度学习应用于因果发现时,面对各种数据类型,对于使用哪种因果推断框架和处理存在混淆。
因此,我们提出了三种数据范式,每种范式都是由结构数量和变量复杂性的组合产生的。以单一结构因果模型和单值变量为特点的数据范式被称为确定数据范式。以多结构因果模型和多值变量为特点的数据范式被称为不确定数据范式。半确定数据范式位于确定和不确定范式之间,捕获了单一结构因果模型和多值变量,或多结构因果模型和单值变量的组合。令人惊讶的是,在确定和半确定领域已有大量的研究,而在不确定数据范式中则缺乏重大进展。
为了详细讨论确定性和半确定性数据范式中的现有工作,以及不确定性数据范式中的研究空白,我们的调研做出了以下贡献
• 在第2节中,我们介绍了与因果数据相关的扩展概念和术语。 * 此外,在第3节中,我们为三个数据范式提出了定义,并分析了它们在因果发现的计算过程中的差异。 • 在第4节和第5节中,我们分别总结了确定性和半确定性数据范式中的现有工作。 • 在第6节中,我们介绍了不确定数据所面临的挑战,并提出了相应的理论路线图。我们讨论了如何解决因果可区分性、混杂因子的解耦和因果一致性等理论问题。 • 在第7节中,我们汇编了三种数据范式的常用数据集。我们提供了关于数据集大小和与之相关的典型任务的信息。
在此部分,我们展示了基于单结构和单值数据类型的研究进展,通过介绍与数据范式相关的不同任务及其对应的现有工作。
基于观测变量的因果发现:
该任务旨在通过各种方法恢复观测变量的完整且无混杂的因果模型或部分因果模型。 * 我们概述了传统的因果发现方法(例如,基于约束的方法、基于评分的方法和基于SCM的方法),以及结合深度学习的近期工作。
带有混杂因子的因果发现:
该任务旨在在各种混杂因子存在的假设下估计和恢复因果模型(例如,假设混杂因子对所有观测变量都有普遍影响,或者假设只有一个混杂因子作为观测变量的父节点存在)。 * 这些研究包括基于图形因果模型和SCM的方法。
因果效应估计: * 该任务旨在估计当治疗目标的值发生变化时,观测目标的值实现理想值的过程。这个任务需要恢复因果模型作为前提,或者将因果模型的见解与效果估计结合起来。 * 这些研究主要依赖于潜在结果框架,特别是Rubin因果模型(RCM)。它们可以根据Review [268]中提供的分类进行分类,包括重新加权方法、分层方法、匹配方法、基于树的方法、基于表示的方法、多任务方法和元学习方法。
在此部分,我们提供了与半确定数据范式相关的任务和现有工作的概述,展示了在两种数据类型上取得的研究进展:单结构 & 多值 和多结构 & 单值数据。 多结构 & 单值数据类型:
这类数据的主要关注点是时间序列数据。这类任务的目标是确定多个时间成分之间的因果关系(其中因果结构可能在不同的样本中有所不同)。 * 按照Review [78]的分类方法,这些任务进一步分为多变量时间序列和事件序列,具体取决于校准数据的存在。 单结构 & 多值数据类型:
它包括与多值数据模态相关的各种任务,例如与图像、文本、语音和表示相关的任务。 * 这些任务有着不同的高级领域,涉及识别、分类、生成、提取和区分。然而,共同的领域是在较低层次的多值数据中恢复一个固定的(可能只包含基本部分)因果模型。
尽管多种结构和多值变量组合带来的挑战,我们旨在分别探讨两者的观点。换句话说,当讨论由多结构引起的问题时,我们假设多值数据导致了𝑝 : S → X. 𝑞 : X → Xˆ的存在;同样地,多值数据假设变量𝑓不能通过统计强度来解决。
结论
在本文中,我们从因果结构和因果表示两个角度重新定义现有的因果数据,使其能够适当地嵌入到深度学习的理论和方法中,形成一个完整且全面的领域。
首先,我们重新定义了基本概念,如因果模型、因果变量和因果表示,并介绍了现有数据在结构和表示方面的差异。具体来说,我们使用“多结构数据”来表示因果结构不唯一的情况,“单一结构数据”表示具有固定因果结构的情况。我们使用“多值变量”来指代需要深度表示进行因果变量计算的数据,而“单值变量”则涵盖了以数值形式存在的统计数据,无需深度表示。基于结构和表示的差异,我们定义了三种不同的数据范式:确定数据(单结构和单值)、半确定数据(单结构和多值,或多结构和单值)和不确定数据(多结构和多值)。我们通过它们的形式来 exemplify 它们的差异,分析它们在分辨率路径方面面临的不同问题,并总结它们在研究发展中的各自发展方向。
确定数据和半确定数据作为成熟的研究领域,已经与各种任务相关,以突出它们当前的应用场景。确定数据主要涉及因果发现、带有潜在混淆因子的因果发现和因果效应估计。半确定数据主要关注与时间序列、图像、文本、其他模态和深度表示相关的因果数据。然而,不确定数据仍处于起步阶段。我们考虑结构和表示来为基于现有研究问题处理同时的多结构和多值数据设想路线图。
最后,我们整理了三种数据范式中常用的数据集,简要介绍了它们的属性,并总结了它们的应用领域。 我们提出的三种数据范式几乎涵盖了所有因果模型,尤其是包括图像和文本等非结构化输入在内。我们希望这三种数据范式能为读者提供更广泛的因果洞察。当面对特定的因果数据时,他们可以按照本次审查中的分类来捕获数据类型的关键特征和挑战,从而确定深度模型和因果理论的基线。