因果推断(causal inference)是回归(regression)问题的一种特例吗?

题主是因果推断小白,今天听了一个机器学习和因果推断的讲座,之前一直有的疑问又冒出来了:机器学习训练的模型已经无法写成简单的函数形式了,为什么因果推断还…
关注者
3,853
被浏览
604,200
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

不是。

@覃含章 的回答已经非常精彩,而且很科普,我稍微补充一些。大家可以结合他的回答来看我的论述。

因果推断(causal inference)是现代科学研究的核心目的,也是难题。

回归(regression)是为了进行因果推断的其中一种工具。

最初,对于因果的理解,是大哲学家休谟提出的恒常因果(regularity causality),认为不存在必然因果律,因果只是盖然性的,本质上与相关关系一样。

后来,出现了反休谟式因果,即必然因果论(necessity causality),最早斯宾诺莎(Spinoza)在著作《伦理学》中提出“原因是结果的充分条件”,在经过一番推导后,他指出,原因至少是结果的必要条件。

到了现代,John Mackey基于因果复杂性,提出了INUS条件(Insufficient but Necessary part of an Unnecessary but Sufficient condition)。当我们说“X是Y的原因”时,其实是在说,存在一个条件组合对Y来说是充分不必要的,X是这个条件组合中必要不充分的部分。

为了融合这两种对立的因果,最早,Neyman(1923)在On the applications of the theory of probability to agricultural experiments初步提出了实验型研究中的潜在因果架构(Potential outcomes frameworks),后来,Rubin把它推广到观察型研究中,并提出了数学形式化的模型。

此时,原因被理解为对结果的“difference maker”。这种原因是在反事实的思维框架下进行理解的。

通常,因果推断包括两种,一种是基于实验法(包括准实验),一种是基于观察和统计。

而统计中的回归是可以纳入到潜在因果架构的,要估计的自变量前面的系数,其实就是核心的平均因果效应(ACE或ATE)。

因此,在因果推断中,实验法和统计回归是最重要的两种手段/工具。同时,这两种手段/工具可以统一在形式化的潜在因果架构中。

同时,很多人经常说,回归得来的因果关系,不是真正的因果关系,只是相关关系。很明显,他们是秉持了大哲学家休谟的立场。

但这种理解是不全面的。

到了现代,特别是潜在因果架构中,对于因果的识别,回归只是一种判断工具,但不是唯一判定指标。回归出来的“因果关系”必须符合理论和逻辑。换言之,因果关系的最终确立,依赖的是理论和逻辑。经过严密的研究设计,结合理论的指导,符合高斯—马尔可夫定理(Gauss–Markov theory)中的五个基本假设(现实数据基本不符合,因此需要设计、纠偏和检验),我们才能说回归出来的结果,是因果关系,而不是相关关系。

注:以上论述,部分来源于我博士阶段社科研究方法论及统计学课程。