隐藏着的因果关系，如何让相同的机器学习模型变得不同

2019 年 2 月 6 日 机器之心

选自inference.vc

作者：Ferenc Huszár

机器之心编译

参与：李诗萌、刘晓坤

本文是 Ferenc Huszár 关于因果推理系列的第二篇文章，他在第一篇中阐述了监督学习和因果推理如何在因果图的框架下统一。在本文中，作者将通过几个简单的案例对比，展示当存在变量干预时，相同的联合分布如何受到因果关系的影响而出现截然不同的行为。

在这篇文章中，我将介绍在南非斯泰伦博斯大学的机器学习夏季学院讲课中，用来解释因果干预的几个简单的例子。我将其称之为三个脚本的 toy example。

三个脚本

假设你在教授编程课程，你让学生写一个 Python 脚本，这个脚本是要从均值和方差都确定的 2D 高斯分布中采样。因为从高斯分布中抽样的方法有很多种，可能会出现非常不同的方法。例如，下面是三个可以实现相同的、正确的采样行为的脚本：

我通过反复执行这些脚本绘制了样本点。如你所见，这三个脚本在 x - y 坐标图上生成了相同的联合分布。你可以将这些分布馈送到 two-sample test 中，然后你就会发现它们确实很难区分。

根据联合分布，这三个脚本是不可区分的。

干预

尽管这三个脚本产生了相同的分布，但却不尽相同。例如，当我们干预时，它们的行为会有所差异。

做个思想实验：我是一个黑客，可以在 Python 解释器中添加代码。对这些代码片段的每一行来说，我都可以插入一行我自己选择的代码。假设我在每一行代码后都插入了一行 x=3，然后实际执行的代码是这样的：

我们现在可以在被黑的解释器中运行脚本，并观察干预是如何改变 x 和 y 的分布的：

当然，我们可以看到，x 的值不再是随机的了，它被设置为 3，这就导致所有的样本都是沿着 x=3 的垂线排列的。但有趣的是，在不同的脚本中，y 的分布是不同的。在蓝色的脚本中，y 的均值在 5 左右，而绿色和红色的脚本中 y 的分布是以 1 为中心的。下图可以更好地观察到干预行为下的 y 的边缘分布。

我将这个图标记为 p(y|do(X=3))，从语义上讲这是指在将 x 的值设置为 3 的干预下的 y 的分布。一般这和条件分布 p(y|x=3) 是不同的，当然这三个脚本都是一样的。下面我将展示这些条件——请原谅这里的估计误差比较多，因为我真的懒得做这些图了，但请相信我从技术上来讲它们都是相同的：

这里的重点是：脚本在干预下会产生不同的行为。

你只查看脚本产生的样本的联合分布时，是很难区分脚本的，但在干预下，它们的表现会有所差异。

因此，只有数据的联合分布不足以预测干预下的行为。

因果图

如果联合分布不够充分，那什么级别的描述才能让我们预测脚本在干预下的行为呢？如果我有完整的源代码，我当然可以执行修改后的脚本（即运行实验）并直接观察它对分布的影响。

但事实证明，你不需要完整的源代码。只要知道源代码对应的因果图就够了。因果图编码了变量间的因果关系，箭头从原因指向结果。这里有上述脚本的因果图：

我们可以看到，即便它们产生了相同的联合分布，但脚本的因果图不同。因果结构这一附加知识使我们可以在不进行实验的情况下推断干预。为了在一般情况下做到这一点，我们可以用 do-calculus，在我之前的文章中有更详细的解释。

用图来说，为了模拟干预的影响，你要先删除指向被干预变量的所有边，对图进行变换，在本例中这个变量是 x。

第一行的三个图描述了这三个脚本。第二行是变换后的图，在这些图中删除了所有指向 x 的边。在第一个脚本中，图在变换前后看起来是一样的。从这一点看，我们可以总结出 p(y|do(x))=p(y|x)，也就是说在 x=3 时的 y 的分布和在 x=3 时的 y 的条件分布是一样的。在第二个脚本中，在变换后 x 和 y 中不再有任何连接，因此它们是相互独立的。从这一点看，我们可以总结出 p(y|do(X=3))=p(y)。改变 x 的值对 y 的值不会产生影响，所以无论你将 x 设置为多少，y 都只是从它的边际分布中抽样得到的。这一点也适用于第三张因果图。

它的意义在于：只通过查看因果图，我们就可以预测脚本在 x=3 的干预下的行为。我们可以在正常（无干预）条件下用观察数据来计算并绘制出这三个脚本的 p(y|do(X=3))，而不需要进行实验或模拟干预。

因果图允许我们在没有任何干预的情况下预测模型在干预下的行为。

这证明可以在正常情况（无介入行为）下只用从脚本中获得的样本估计干预试验下 y 的观测值的分布。这就是所谓的观测数据的因果推断。

简言之，干预因可以改变果，干预果不能改变因，就像在函数中我们也需要区分自变量和因变量。