对因果推理的简明和自成体系的介绍,在数据科学和机器学习中越来越重要。
因果关系的数学化是一个相对较新的发展,在数据科学和机器学习中变得越来越重要。这本书提供了一个独立的和简明的介绍因果模型和如何学习他们的数据。在解释因果模型的必要性,讨论潜在的因果推论的一些原则,这本书教读者如何使用因果模型:如何计算干预分布,如何从观测推断因果模型和介入的数据,和如何利用因果思想经典的机器学习问题。所有这些主题都将首先以两个变量的形式进行讨论,然后在更一般的多元情况下进行讨论。对于因果学习来说,二元情况是一个特别困难的问题,因为经典方法中用于解决多元情况的条件独立不存在。作者认为分析因果之间的统计不对称是非常有意义的,他们报告了他们对这个问题十年来的深入研究。
本书对具有机器学习或统计学背景的读者开放,可用于研究生课程或作为研究人员的参考。文本包括可以复制和粘贴的代码片段、练习和附录,其中包括最重要的技术概念摘要。
首先,本书主要研究因果关系推理子问题,这可能被认为是最基本和最不现实的。这是一个因果问题,需要分析的系统只包含两个可观测值。在过去十年中,作者对这个问题进行了较为详细的研究。本书整理这方面的大部分工作,并试图将其嵌入到作者认为对研究因果关系推理问题的选择性至关重要的更大背景中。尽管先研究二元(bivariate)案例可能有指导意义,但按照章节顺序,也可以直接开始阅读多元(multivariate)章节;见图一。
第二,本书提出的解决方法来源于机器学习和计算统计领域的技术。作者对其中的方法如何有助于因果结构的推断更感兴趣,以及因果推理是否能告诉我们应该如何进行机器学习。事实上,如果我们不把概率分布描述的随机实验作为出发点,而是考虑分布背后的因果结构,机器学习的一些最深刻的开放性问题就能得到最好的理解。