美国 Baylor University 经济学教授 Scott Cunningham 认为,因果推理是利用理论和对制度细节的深入了解,来估计事件和选择对特定利益结果的影响。本推文介绍的便是 Scott Cunningham 于 2021 年初上市的书籍《Causal Inference: The Mixtape》 (出版社:Yale University Press)。
书 名:Causal Inference: The Mixtape
作 者:Scott Cunningham 出版社:Yale University Press
这本书通俗易懂地介绍了识别社会科学中的因果关系的最新方法,是一本很实用的学习因果推理的书籍。对于整体写作风格,这本书在理论层面言简意赅,更多强调了方法应用。作者通过列举许多社会科学相关的因果推理的案例和参考论文,对实际案例的细节进行了详细的分析,并且展示了分析案例所借助的 Stata 和 R 软件具体操作程序。
对于基本内容,作者在回顾基本的因果推理概念、概率与回归概念的基础上,介绍了有向无环图 (Directed Acyclic Graphs,DAG)、潜在结果因果模型 (Potential Outcomes Causal Model)、匹配 (Matching) 以及断点回归 (Regression Discontinuity) 等因果推理工具和因果识别策略。其中,DAG 几乎出现在书籍中的每一章节。
相比于 2008 年出版的《Counterfactuals and Causal Inference: Methods and Principles for Social Research》,这本书不仅涵盖了很多案例,关注了工具变量法、断点回归法等准实验方法,还包括了经济学者目前关注的合成控制法。此外,书中提供了案例分析所需的数据、代码内容。因而,本科生、硕士生和刚入学的博士生如果想了解因果推理和学习诸如合成控制法这类的最新方法,可以参考这本书。
2. 内容介绍
首先,作者介绍了有关因果推理、概率与回归相关概念和理论,为新接触因果推理的读者更好地学习打好基础。
第一章引言作者通过识别需求的价格弹性等一系列案例,介绍了因果推理的含义、如何区分相关性与因果关系等基本内容;
第二章概率与回归回顾中,从基础的概率理论出发,回顾了随机过程、样本空间、统计独立性、事件和条件概率以及期望值、方差等统计定义。在此基础上,介绍了普通最小二乘法、方差分析理论、稳健标准误等统计数据分析的基本方法。 其次,为更好地识别因果关系,第三章至第五章介绍了因果推理的工具。
第三章引入有向无环图 (DAG),这是一个有助于澄清变量之间的因果关系的强大的工具,讨论了后门标准和对撞机偏差两个概念。详细阅读这一章对后续阅读有很大的帮助; 第四章讨论了潜在结果因果模型。因果效应可被定义为实际发生状态和反事实状态之间的比较,潜在结果表示法用反事实表示因果关系。书中定义了各种类型的因果效应:平均处理效应 (ATE)、干预组的平均处理效应 (ATT)、控制组的平均处理效应 (ATU)等。潜在结果因果模型成立依赖两个关键假设:一是强调被干预对象相互独立;二是在一定条件下,分配机制不会对潜在结果产生影响。潜在结果是由分配机制决定的,也十分强调匹配和倾向值分析对因果推理的重要性; 第五章继续描述匹配和分配问题。贯穿这一章的概念是有条件独立假设 (CIA),通过学生分配问题表明处理分配是有条件的随机。当样本较少时,分配缺乏足够的数据,因而使得匹配和倾向值分析显得尤为重要。精确匹配和近似匹配均是因果推理的重要组成部分,倾向得分匹配作为一个工具,以使不同组别具有可比性。 最后,在剩下的第六章至第十章,此书理论结合案例,分别介绍了识别因果推理的策略,包括断点回归、工具变量、面板数据、差分、合成控制五个方法。
断点回归 (Regression Discontinuity) 的设计围绕核心变量、临界值、处理组分配和结果本身之间的关系。精确断点回归是其中一种方法,使用一个连续的分数,通过任意选择一个临界值来分配处理组和控制组,比较高于和低于临界值的人来估计一种特定的平均值。作者借助一个案例 “复制一个流行的设计:接近的选举” 进行具体说明;
工具变量 (Instrumental Variables) 设计可能是有史以来最重要的研究设计之一。作者从显示一系列因果效应的 DAG 开始进行分析,认为其包含了理解工具变量策略所需的所有信息。工具变量法通常用于解决遗漏变量偏差、测量误差等问题,两阶段最小二乘法是一个比较常用的方法,书中提供了一些数据,帮助读者更好地理解如何在实际数据中实现两阶段最小二乘法。与断点回归不同,工具变量法的识别假设有 5 个。这使得使用工具变量法时通常出现弱工具变量等问题,因而研究者很难找到满足所有 5 个条件的工具变量;
面板数据 (Panel Data) 包含不同单位时间内重复测量的纵向数据。固定效应是一种估计因果效应有用的方法。只要处理和结果随时间变化,并且存在严格的外生性,那么固定效应将消除任何和所有未观测和观测的处理变量相关的不随时间变化的协变量。但是,这种方法不能处理随时间变化的、未观测到的异质性,而且当存在强反向因果路径时,面板方法是有偏的。作者通过回顾描述面板数据的 DAG 情况下,讨论一篇论文,然后在 R 和 Stata 中进行一个数据集的练习,很好的解释了上述问题;
差分 (Difference-In-Differences) 已经成为定量社会科学中最受欢迎的研究设计之一。作者以简单的形式(同时处理一组单位)和更常见的形式(即在不同时间点处理一组单位)来解释差分方法。这一章的重点是确定估计处理效应所需的假设,包括通过事件研究提供平行趋势证据、安慰剂的重要性、有时间差异的双向固定效应等;
合成控制 (Synthetic Control) 目前是一个活跃的研究领域,人们期望通过合成控制方法进行大量的证伪联系。使用合成控制法进行比较案例研究,必须通过基于安慰剂的推断找到确切的 值,检查预处理的匹配,调查用于匹配的协变量的平衡性,并通过安慰剂估计检验模型的有效性。书中通过 “监狱建设和黑人男性监狱” 的案例,展示了如何在 Stata 中估计合成控制方法。但是,还有很多相关问题书中没有给出解决方法。
以下是核心内容的基本架构,方便大家更好地了解这本书:
3. 总结
因果推理是一个重要且有趣的领域,越来越受到社会科学研究者的关注。 潜在结果因果模式提供了一种直观的方式来思考因果效应,该模型在理解使用异质的准实验研究设计来确定因果关系所需的假设方法非常有效; 有向无环图对项目的设计阶段非常有用,在理论模型和对某些现象的理解以及识别所关心的因果效应的策略方面都受到关注; 其它的识别因果效应的策略是目前微观经济学中最常见的。 但是,这本书省略了边际效应、部分标识等内容。