基于深度元学习的因果推断新方法

2020 年 7 月 21 日 图与推荐
基于深度元学习的因果推断新方法

Bengio, Yoshua, et al. "A meta-transfer objective for learning to disentangle causal mechanisms." ICLR (2020).


引言



因果推断是统计学领域的重要技术,主要通过观测到的统计量判断各个变量之间的因果关系。该技术在众多学科,尤其是在医学和经济学中得到了广泛关注和应用。


理论上讲,要想判断两个变量之间有无因果关系,最理想的方法是通过对照实验。例如,要想判断某种药品对病人是否有效,只需在“用药组”和“对照组”之间进行对照实验即可。进行这样的实验,需要保证两组病人之间除了对照变量之外完全一致。然而,这一条件在现实生活中,常常无法达到。例如,判断性别是否对某种疾病有影响,难道要让病人做变性手术吗?而在更多时候,由于实验成本太高,回顾性的分析才是主流。


另一方面,传统统计学里,用来描述统计量之间因果关系的,往往是最简单的线性模型。当然,针对简单的问题,高相关性的线性模型就足以预示两者之间的因果关系。但这对于实际问题来说,显然是远远不够的。


针对这两个问题,Bengio组在今年的ICLR上发表了文章 A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms,提出了一种全新的基于元学习和深度神经网络的因果推断模式。


背景



因果推断离不开对照实验,而计算机科学中从来没有对照实验。因此,在该文章中,作者首次提出了用元学习(Meta learning) 代替昂贵的对照实验的想法。

用元学习的一系列迁移数据集代替对照实验

众所周知,在元学习中,我们往往拥有一系列相似但不同的数据集,并希望我们的模型可以拥有良好的泛化能力,也就是在这些数据集上都能取得良好的效果。在因果推断中,便可以假设这些数据集都是某种对照实验的结果,只是该对照试验改变的变量(Intervention)是未知的。


那么,既然不知道这些数据集中哪些条件出现了变化,又该如何判断数据集中不同变量之间的因果关系呢?该文章中提出了一个重要的论断,该论断成为了后文所有推导的基石:

基于正确的因果关系设计的模型,其在迁移数据集下的收敛速度要快于基于错误的因果关系设计的模型。



简单的例子:患病-用药 实例



假定这样一个数据集:数据集中有两个变量  (是否患病,是否用某种药),且两个变量的取值均为 0(否)或 1(是)。通过极大似然法,我们可以很容易地估计两个变量之间的联合概率:

p(患病,用药)
p(患病,不用药)
p(不患病,用药) p(不患病,不用药)

以及这两个变量的相关性。


很显然,我们无法得知这两个变量之间的因果关系。无论你假设这两个变量哪个是原因哪个是结果,联合概率分布都不会有区别(这是一个直观的事实,具体证明及实验详见原论文附录)。当然根据常识,我们可以知道是因为患有某种疾病,才会去用药的。


然而,如果我们有另一个数据集呢?在上帝视角里,这第二个数据集里p(用药|患病)的概率和上一个数据集相同,然而p(患病)和上一个数据集不同。也就是说,第二个数据集里的人类对待患病的反应与前者相同,但疾病的发病率出现了变化。


现在,我们想要知道患病与用药的因果关系如何,便可以设计两个基于梯度的对比模型,一个基于“患病→用药”假设,先推导p(患病),再推导p(用药|患病),最后得出预测结果似然p(用药,患病|参数)。另一个恰好相反,先推导p(用药),再推导p(患病|用药),最后得出预测结果似然p(用药,患病|参数)。其中,p(患病=0) + p(患病=1) = 1,所以要表达患病的概率只需要1个 [0,1]之间的自由参数。同样地,p(用药=0|患病=0) + p(用药=1|患病=0) = 1,所以表达 p(用药|患病)的四个参数中只有两个是自由参数。一旦这些自由参数的值确定下来,那么其他的参数也可以随之确定,因为概率的加和总等于一。因此,第一个模型中一共有着3个自由参数(第二个模型也是如此)。更基本地,如果一个类似的存在两个离散变量的概率模型中每个变量有N个取值的话(在这个例子里N=2),自由变量的个数为(N - 1) + N(N - 1) = N*N - 1 。模型的优化目标则是最大化似然函数p(用药,患病|参数)。


我们先将两个模型分别在同一数据集上训练好,然后将它们迁移到第二个数据集上去。显而易见,两个模型收敛后得到的似然值应该是相同的。然而,它们的训练曲线不同。如下图:

可以看出,随着见到的数据实例不断增多,两个模型最中都收敛到了相同的值。然而,正确的模型收敛更快,尤其是在模型训练的开始阶段。其中,logP(D|A→B)代表在“患病→用药”假设(正确的假设)下出现训练数据的似然的平均值,反之亦然。


为什么会这样?



文中解释说,由于正确的模型中大部分的参数都与迁移后的参数更接近,所以只需要调节更少的参数,模型就可以收敛。因此,模型收敛的速度更快,泛化性能更好。


文中还给出了这一现象更严谨的表述形式:模型(a)在原分布上充分学习,并(b)在因果关系中有正确的父节点且(c)原分布和迁移分布的条件概率相同的情况下时,将模型从原分布转移到迁移分布中时,关于模型参数的regret(迁移训练时的对数似然的积分)的期望梯度是0。并在论文附录中给出了证明。


进一步地,文中将这一推断进一步拓展到了更复杂的情况。假设数据集中每条数据有M个变量(在上面的例子中M=2),我们要学习这M个变量之间的因果关系。那么,对于其中的每对变量 (A, B),都可以设计一个参数γ,使得p(A → B) = sigmoid(γ)而p(B → A) = 1 - sigmoid(γ)。文中提出了一个优化目标


R = − log [sigmoid(γ)LAB + (1 − sigmoid(γ))LBA


其中,LAB就是我们上文用到的似然在前T步优化时的乘积。

LAB = ΠT PAB(at,btt

可以看出,如果因果关系A→B是正确的,那么PAB(at,bttLAB就会增大,在优化时使得γ的值增大以达到最优。这点在论文附录中也给出了证明。


为了优化γ,本文设计了一套类似元学习的训练方法。在这一方法中,模型本身的参数θ作为算法内循环的参数,在多个数据集之间共享。而表达因果关系的参数γ作为外循环的参数,对每个数据集是独特的。总体算法如下:


  • 初始化模型中所有参数,假定所有变量都具有因果关系

  • 初始化γ

  • 在原分布上预训练模型

  • 重复 J 次:

    • 选择一个迁移分布

    • 根据γ选择因果结构

    • 重复 T 次:

      • 在迁移分布上采样一个minibatch

      • 计算它的在线对数似然

      • 根据似然更新模型内参数

    • 计算γ的梯度并更新

    • 在某些情况下,将模型参数重新设置为预训练后的结果


实验



该论文在拥有两个离散变量的人造数据集中进行了实验,其中,每个离散变量的取值个数为N=10或100。通过这一实验,该论文验证了模型判定因果关系的能力。


这两张图描述了在模型训练过程中,参数γ收敛的情况和模型的预测能力变化。可以看出,随着训练轮次的增加,描述因果关系的参数γ稳定地收敛到正确的结果,且随着模型训练轮次的增加,模型的预测能力也上升了。




往期文章:



登录查看更多
4

相关内容

可解释人工智能(xAI)是近年来出现的一个有趣的问题。许多研究人员正试图从不同的角度和有趣的结果来处理这个问题。然而,我们在理解这些类型的模型方面仍处于起步阶段。在未来的几年里,深度学习模型的开放性将被讨论。在经典的人工智能方法中,我们经常遇到深度学习方法。这些深度学习方法可以根据数据集大小、数据集质量、用于特征提取的方法、用于深度学习模型的超参数集、激活函数和优化算法得出高效的结果。然而,目前的深度学习模型还存在一些重要的不足。这些基于人工神经网络的模型是黑盒模型,它概括传输给它的数据并从数据中学习。因此,输入和输出之间的关系是不可观察的。这是人工神经网络和深度学习模型的一个重要开放点。由于这些原因,有必要认真研究黑盒模型的可解释性和可解释性。

成为VIP会员查看完整内容
0
38

本课程的教材是从机器学习的角度写的,是为那些有必要先决条件并对学习因果关系基础感兴趣的人而开设的。我尽我最大的努力整合来自许多不同领域的见解,利用因果推理,如流行病学、经济学、政治学、机器学习等。

有几个主要的主题贯穿全课程。这些主题主要是对两个不同类别的比较。当你阅读的时候,很重要的一点是你要明白书的不同部分适合什么类别,不适合什么类别。

统计与因果。即使有无限多的数据,我们有时也无法计算一些因果量。相比之下,很多统计是关于在有限样本中解决不确定性的。当给定无限数据时,没有不确定性。然而,关联,一个统计概念,不是因果关系。在因果推理方面还有更多的工作要做,即使在开始使用无限数据之后也是如此。这是激发因果推理的主要区别。我们在这一章已经做了这样的区分,并将在整本书中继续做这样的区分。

识别与评估。因果效应的识别是因果推论所独有的。这是一个有待解决的问题,即使我们有无限的数据。然而,因果推理也与传统统计和机器学习共享估计。我们将主要从识别因果效应(在第2章中,4和6)之前估计因果效应(第7章)。例外是2.5节和节4.6.2,我们进行完整的例子估计给你的整个过程是什么样子。

介入与观察。如果我们能进行干预/实验,因果效应的识别就相对容易了。这很简单,因为我们可以采取我们想要衡量因果效应的行动,并简单地衡量我们采取行动后的效果。观测数据变得更加复杂,因为数据中几乎总是引入混杂。

假设。将会有一个很大的焦点是我们用什么假设来得到我们得到的结果。每个假设都有自己的框来帮助人们注意到它。清晰的假设应该使我们很容易看到对给定的因果分析或因果模型的批评。他们希望,清晰地提出假设将导致对因果关系的更清晰的讨论。

成为VIP会员查看完整内容
0
98

有几个主要的主题贯穿全书。这些主题主要是对两个不同类别的比较。当你阅读的时候,很重要的一点是你要明白书的不同部分适合什么类别,不适合什么类别。

统计与因果。即使有无限多的数据,我们有时也无法计算一些因果量。相比之下,很多统计是关于在有限样本中解决不确定性的。当给定无限数据时,没有不确定性。然而,关联,一个统计概念,不是因果关系。在因果推理方面还有更多的工作要做,即使在开始使用无限数据之后也是如此。这是激发因果推理的主要区别。我们在这一章已经做了这样的区分,并将在整本书中继续做这样的区分。

识别与评估。因果效应的识别是因果推论所独有的。这是一个有待解决的问题,即使我们有无限的数据。然而,因果推理也与传统统计和机器学习共享估计。我们将主要从识别因果效应(在第2章中,4和6)之前估计因果效应(第7章)。例外是2.5节和节4.6.2,我们进行完整的例子估计给你的整个过程是什么样子。

介入与观察。如果我们能进行干预/实验,因果效应的识别就相对容易了。这很简单,因为我们可以采取我们想要衡量因果效应的行动,并简单地衡量我们采取行动后的效果。观测数据变得更加复杂,因为数据中几乎总是引入混杂。

假设。将会有一个很大的焦点是我们用什么假设来得到我们得到的结果。每个假设都有自己的框来帮助人们注意到它。清晰的假设应该使我们很容易看到对给定的因果分析或因果模型的批评。他们希望,清晰地提出假设将导致对因果关系的更清晰的讨论。

https://www.bradyneal.com/causal-inference-course

成为VIP会员查看完整内容
0
147

摘要:这项工作考虑了这样一个问题: 获取大量数据的便利程度如何影响我们学习因果效应和关系的能力。在大数据时代,学习因果关系与传统因果关系有哪些不同或相同之处?为了回答这个问题,这项综述提供了一个在因果关系和机器学习之间联系的全面和结构化的回顾。

https://www.zhuanzhi.ai/paper/6ad7902913e98bd48540a5596b978edc

因果性是结果与引起结果的原因之间的一种一般性关系。它很难定义,而且我们通常只凭直觉知道原因和结果。因为下雨,街道是湿的。因为这个学生不学习,所以他考试考得很差。因为烤箱是热的,奶酪在披萨上融化了。当用数据学习因果关系时,我们需要意识到统计关联和因果之间的区别。例如,当天气炎热时,一家冰淇淋店的老板可能会注意到高昂的电费和较高的销售额。因此,她会观察到电费和销售数字之间有很强的联系,但电费并不是导致高销售额的原因——让商店的灯彻夜开着不会对销售产生影响。在这种情况下,外部温度是高电费和高销售额的共同原因,我们说它是一个混乱的因果关系。

学习因果关系的能力被认为是人类水平智能的重要组成部分,可以作为AI的基础(Pearl, 2018)。从历史上看,学习因果关系已经在包括教育在内的许多高影响领域被研究过(LaLonde, 1986;Dehejia和Wahba, 1999年;Heckerman et al ., 2006;希尔,2011),医学科学(马尼和库珀,2000;经济学(Imbens, 2004)、流行病学(Hernan et al., 2000;Robins等人,2000年;、气象学(Ebert-Uphoff和Deng, 2012)和环境卫生(Li et al., 2014)。受限于数据量,坚实的先验因果知识是学习因果关系所必需的。研究人员对通过精心设计的实验收集的数据进行研究,坚实的先验因果知识至关重要(Heckerman et al., 2006)。以随机对照试验的原型为例(Cook et al., 2002),为了研究一种药物的疗效,患者将被随机分配服用或不服用该药物,这将保证平均而言,治疗组和未治疗组(对照组)在所有相关方面是等同的,排除任何其他因素的影响。然后,药物对某些健康结果的影响——比如,偏头痛的持续时间——可以通过比较两组的平均结果来衡量。

这个综述的目的是考虑在现在的大数据时代学习因果关系的新可能性和挑战,这里指的是海量数据集的可用性。举个例子,考虑到无法测量的混杂因素的可能性——可能会被减轻,因为可以测量更多的特征。因此,一方面,研究人员有可能在大数据的帮助下回答有趣的因果问题。例如,Yelp的正面评论是促使顾客去餐馆,还是仅仅反映了受欢迎程度而没有影响?这个因果问题可以通过Yelp维护的庞大数据库中的数据来解决。另一方面,用大数据来回答因果问题,会带来一些独特的新问题。例如,尽管公共数据库或通过web爬行收集的数据或应用程序编程接口(api)是空前巨大的,我们有很少的直觉对什么类型的偏差数据集可以遭受——数据更丰富,也更神秘,因此,负责任地更难模型。与此同时,大数据给其他学习任务(如预测)带来的基本统计困难,使得因果调查更具挑战性。也许这方面最显著的例子是现代数据的高维性(Li et al., 2017a),比如文本数据(Imai et al., 2013)。

成为VIP会员查看完整内容
0
97

题目: Causal Relational Learning

摘要:

因果推理是自然科学和社会科学实证研究的核心,对科学发现和知情决策至关重要。因果推理的黄金标准是进行随机对照试验;不幸的是,由于伦理、法律或成本的限制,这些方法并不总是可行的。作为一种替代方法,从观察数据中进行因果推断的方法已经在统计研究和社会科学中得到发展。然而,现有的方法严重依赖于限制性的假设,例如由同质元素组成的研究总体,这些同质元素可以在一个单平表中表示,其中每一行都被称为一个单元。相反,在许多实际环境中,研究领域自然地由具有复杂关系结构的异构元素组成,其中数据自然地表示为多个相关表。在本文中,从关系数据中提出了一个正式的因果推理框架。我们提出了一种称为CaRL的声明性语言,用于捕获因果背景知识和假设,并使用简单的Datalog类规则指定因果查询。CaRL为在关系领域中推断复杂干预的影响的因果关系和推理提供了基础。我们对真实的关系数据进行了广泛的实验评估,以说明CaRL理论在社会科学和医疗保健领域的适用性。

成为VIP会员查看完整内容
0
113

数十年来,因果推理是一个跨统计、计算机科学、教育、公共政策和经济学等多个领域的重要研究课题。目前,与随机对照试验相比,利用观测数据进行因果关系估计已经成为一个有吸引力的研究方向,因为有大量的可用数据和较低的预算要求。随着机器学习领域的迅速发展,各种针对观测数据的因果关系估计方法层出不穷。在这项调查中,我们提供了一个全面的综述因果推理方法下的潜在结果框架,一个众所周知的因果推理框架。这些方法根据是否需要潜在结果框架的所有三个假设分为两类。对于每一类,分别对传统的统计方法和最近的机器学习增强方法进行了讨论和比较。并介绍了这些方法的合理应用,包括在广告、推荐、医药等方面的应用。此外,还总结了常用的基准数据集和开放源代码,便于研究者和实践者探索、评价和应用因果推理方法。

地址:

https://www.zhuanzhi.ai/paper/a37f27ed97e5318b30be2999e9a768c3

成为VIP会员查看完整内容
0
146

图灵奖获得者Judea Pearl在Twitter推荐了一本新书《图模型手册》,他认为,这本书很好地刻写了图模型领域自20世纪80年代成立以来是如何发展的。由顶级统计学家编写,它可以作为传统统计学家很好的一个介绍因果模型的材料。

成为VIP会员查看完整内容
0
44
小贴士
相关VIP内容
专知会员服务
38+阅读 · 2020年9月13日
专知会员服务
98+阅读 · 2020年9月1日
专知会员服务
147+阅读 · 2020年8月25日
专知会员服务
113+阅读 · 2020年4月22日
专知会员服务
113+阅读 · 2020年4月21日
因果图,Causal Graphs,52页ppt
专知会员服务
144+阅读 · 2020年4月19日
相关论文
Jiacheng Yang,Mingxuan Wang,Hao Zhou,Chengqi Zhao,Yong Yu,Weinan Zhang,Lei Li
5+阅读 · 2020年3月26日
Interpretable CNNs for Object Classification
Quanshi Zhang,Xin Wang,Ying Nian Wu,Huilin Zhou,Song-Chun Zhu
17+阅读 · 2020年3月12日
Guneet S. Dhillon,Pratik Chaudhari,Avinash Ravichandran,Stefano Soatto
7+阅读 · 2020年3月1日
Tianshuo Zhou,Ziyang Li,Gong Cheng,Jun Wang,Yu'Ang Wei
4+阅读 · 2019年10月11日
How to Fine-Tune BERT for Text Classification?
Chi Sun,Xipeng Qiu,Yige Xu,Xuanjing Huang
11+阅读 · 2019年5月14日
Wen Zhang,Bibek Paudel,Wei Zhang,Abraham Bernstein,Huajun Chen
6+阅读 · 2019年3月12日
K M Annervaz,Somnath Basu Roy Chowdhury,Ambedkar Dukkipati
5+阅读 · 2018年5月21日
Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,Mark Johnson,Niko Sünderhauf,Ian Reid,Stephen Gould,Anton van den Hengel
5+阅读 · 2018年4月5日
Chao Ma,Jia-Bin Huang,Xiaokang Yang,Ming-Hsuan Yang
10+阅读 · 2018年3月23日
Quanshi Zhang,Ying Nian Wu,Song-Chun Zhu
4+阅读 · 2017年11月13日
Top