这是一份为纽约大学数据科学中心2024年春季开设的DS-GA 3001.003课程“DS特别专题 - 机器学习中的因果推断”制作的讲义。该课程面向具有基本机器学习背景但之前未接触过因果推断或因果推理的硕士和博士生。特别是,本课程旨在帮助这些学生扩展他们的机器学习视野和知识,纳入因果推理,因为这一方面是所谓的分布外泛化(或缺乏泛化)的核心。
这份讲义不遵循传统的因果推断教学课程。它既不完全依赖潜在结果框架,也不完全依赖do-calculus框架,而是灵活地从这两个阵营中汲取概念和思想(毕竟它们看起来大同小异),以从第一原则建立因果推断的基础。为此,讲义的前半部分涵盖了各种基本主题,包括概率图模型、结构因果模型、因果量的兴趣、条件概率与干预概率、回归、随机对照试验、强盗算法、逆概率加权、匹配和工具变量。我不会深入探讨这些主题,但重点是这些主题如何相互联系(有时是等价的)。在课程的前半部分,我阅读并参考了以下书籍(仅略读)并推荐学生如果有兴趣了解更多关于因果推断的知识,可以深入阅读这些书籍:
https://github.com/kyunghyuncho/2024-causal-inference-machine-learning。