美国 Baylor University 经济学教授 Scott Cunningham 认为,因果推理是利用理论和对制度细节的深入了解,来估计事件和选择对特定利益结果的影响。本推文介绍的便是 Scott Cunningham 于 2021 年初上市的书籍《Causal Inference: The Mixtape》 (出版社:Yale University Press)。

书  名:Causal Inference: The Mixtape

作  者:Scott Cunningham 出版社:Yale University Press

这本书通俗易懂地介绍了识别社会科学中的因果关系的最新方法,是一本很实用的学习因果推理的书籍。对于整体写作风格,这本书在理论层面言简意赅,更多强调了方法应用。作者通过列举许多社会科学相关的因果推理的案例和参考论文,对实际案例的细节进行了详细的分析,并且展示了分析案例所借助的 Stata 和 R 软件具体操作程序。

对于基本内容,作者在回顾基本的因果推理概念、概率与回归概念的基础上,介绍了有向无环图 (Directed Acyclic Graphs,DAG)、潜在结果因果模型 (Potential Outcomes Causal Model)、匹配 (Matching) 以及断点回归 (Regression Discontinuity) 等因果推理工具和因果识别策略。其中,DAG 几乎出现在书籍中的每一章节。

相比于 2008 年出版的《Counterfactuals and Causal Inference: Methods and Principles for Social Research》,这本书不仅涵盖了很多案例,关注了工具变量法、断点回归法等准实验方法,还包括了经济学者目前关注的合成控制法。此外,书中提供了案例分析所需的数据、代码内容。因而,本科生、硕士生和刚入学的博士生如果想了解因果推理和学习诸如合成控制法这类的最新方法,可以参考这本书。 

2. 内容介绍

首先,作者介绍了有关因果推理、概率与回归相关概念和理论,为新接触因果推理的读者更好地学习打好基础。

第一章引言作者通过识别需求的价格弹性等一系列案例,介绍了因果推理的含义、如何区分相关性与因果关系等基本内容;

第二章概率与回归回顾中,从基础的概率理论出发,回顾了随机过程、样本空间、统计独立性、事件和条件概率以及期望值、方差等统计定义。在此基础上,介绍了普通最小二乘法、方差分析理论、稳健标准误等统计数据分析的基本方法。 其次,为更好地识别因果关系,第三章至第五章介绍了因果推理的工具。

第三章引入有向无环图 (DAG),这是一个有助于澄清变量之间的因果关系的强大的工具,讨论了后门标准和对撞机偏差两个概念。详细阅读这一章对后续阅读有很大的帮助; 第四章讨论了潜在结果因果模型。因果效应可被定义为实际发生状态和反事实状态之间的比较,潜在结果表示法用反事实表示因果关系。书中定义了各种类型的因果效应:平均处理效应 (ATE)、干预组的平均处理效应 (ATT)、控制组的平均处理效应 (ATU)等。潜在结果因果模型成立依赖两个关键假设:一是强调被干预对象相互独立;二是在一定条件下,分配机制不会对潜在结果产生影响。潜在结果是由分配机制决定的,也十分强调匹配和倾向值分析对因果推理的重要性; 第五章继续描述匹配和分配问题。贯穿这一章的概念是有条件独立假设 (CIA),通过学生分配问题表明处理分配是有条件的随机。当样本较少时,分配缺乏足够的数据,因而使得匹配和倾向值分析显得尤为重要。精确匹配和近似匹配均是因果推理的重要组成部分,倾向得分匹配作为一个工具,以使不同组别具有可比性。 最后,在剩下的第六章至第十章,此书理论结合案例,分别介绍了识别因果推理的策略,包括断点回归、工具变量、面板数据、差分、合成控制五个方法。

断点回归 (Regression Discontinuity) 的设计围绕核心变量、临界值、处理组分配和结果本身之间的关系。精确断点回归是其中一种方法,使用一个连续的分数,通过任意选择一个临界值来分配处理组和控制组,比较高于和低于临界值的人来估计一种特定的平均值。作者借助一个案例 “复制一个流行的设计:接近的选举” 进行具体说明;

工具变量 (Instrumental Variables) 设计可能是有史以来最重要的研究设计之一。作者从显示一系列因果效应的 DAG 开始进行分析,认为其包含了理解工具变量策略所需的所有信息。工具变量法通常用于解决遗漏变量偏差、测量误差等问题,两阶段最小二乘法是一个比较常用的方法,书中提供了一些数据,帮助读者更好地理解如何在实际数据中实现两阶段最小二乘法。与断点回归不同,工具变量法的识别假设有 5 个。这使得使用工具变量法时通常出现弱工具变量等问题,因而研究者很难找到满足所有 5 个条件的工具变量;

面板数据 (Panel Data) 包含不同单位时间内重复测量的纵向数据。固定效应是一种估计因果效应有用的方法。只要处理和结果随时间变化,并且存在严格的外生性,那么固定效应将消除任何和所有未观测和观测的处理变量相关的不随时间变化的协变量。但是,这种方法不能处理随时间变化的、未观测到的异质性,而且当存在强反向因果路径时,面板方法是有偏的。作者通过回顾描述面板数据的 DAG 情况下,讨论一篇论文,然后在 R 和 Stata 中进行一个数据集的练习,很好的解释了上述问题;

差分 (Difference-In-Differences) 已经成为定量社会科学中最受欢迎的研究设计之一。作者以简单的形式(同时处理一组单位)和更常见的形式(即在不同时间点处理一组单位)来解释差分方法。这一章的重点是确定估计处理效应所需的假设,包括通过事件研究提供平行趋势证据、安慰剂的重要性、有时间差异的双向固定效应等;

合成控制 (Synthetic Control) 目前是一个活跃的研究领域,人们期望通过合成控制方法进行大量的证伪联系。使用合成控制法进行比较案例研究,必须通过基于安慰剂的推断找到确切的 值,检查预处理的匹配,调查用于匹配的协变量的平衡性,并通过安慰剂估计检验模型的有效性。书中通过 “监狱建设和黑人男性监狱” 的案例,展示了如何在 Stata 中估计合成控制方法。但是,还有很多相关问题书中没有给出解决方法。

以下是核心内容的基本架构,方便大家更好地了解这本书:

3. 总结

因果推理是一个重要且有趣的领域,越来越受到社会科学研究者的关注。 潜在结果因果模式提供了一种直观的方式来思考因果效应,该模型在理解使用异质的准实验研究设计来确定因果关系所需的假设方法非常有效; 有向无环图对项目的设计阶段非常有用,在理论模型和对某些现象的理解以及识别所关心的因果效应的策略方面都受到关注; 其它的识别因果效应的策略是目前微观经济学中最常见的。 但是,这本书省略了边际效应、部分标识等内容。

成为VIP会员查看完整内容
0
28

相关内容

在这个反事实和因果推理的第二版中,讲述了反事实方法的基本特征,观察数据分析来自社会,人口统计和健康科学的例子。首先介绍了使用潜在结果模型和因果图的替代估计技术; 在此之后,条件调节技术,如匹配和回归,从潜在结果的角度提出。在没有观察到重要的因果公开决定因素的研究情景中,然后提出了替代技术,如工具变量估计、纵向方法和通过因果机制的估计。本书强调了因果效应异质性的重要性,并讨论了通过机制进行深度因果解释的必要性。

在过去的三十年里,一个反事实的因果模型已经被开发出来,一个统一的框架起诉的因果问题现在是可用的。通过这本书,我们的目标是说服更多的社会科学家将这个模型应用到社会科学的核心经验问题上。

在第2章介绍了反事实模型的主要部分之后,我们将在本书的第2部分介绍因果效应估计的条件反射技术。在第三章中,我们将使用因果图来展示一个基本的条件作用框架。然后,在第4章和第5章,我们将解释匹配和回归估计量,说明它们是更一般条件作用方法的互补变量。在这本书的第三部分,我们将从因果效应估计的“容易”到“困难”的实例进行转换,对于这种情况,简单的条件作用是不够的,因为决定因果公开的相关变量没有被观察到。在第6章介绍了一般性困境之后,我们将在第7章至第9章中介绍工具变量技术、基于机制的因果效应估计,以及使用超时数据来估计因果效应。最后,在第十章中,我们将总结一些反对反事实模型的意见。在本书的结尾,我们将对因果调研的互补模式进行广泛的讨论,这些模式包括观察社会科学中的因果效应估计。在某种程度上,因为详细的目录已经给出了我们将在其余章节中呈现的材料的准确描述,我们在这里不提供一套详细的章节摘要。相反,我们将用三个因果图和它们所提出的因果效应估计策略来结束这一介绍性的章节。这些图表使我们能够预示许多具体的因果效应估计策略,我们将在后面介绍这些策略。因为本章的其余内容将在以后重新介绍和更全面地解释(主要在第3、6和8章),所以现在可以跳过它,没有任何后果。然而,我们在教学这一材料的经验表明,在考虑观察数据分析的反事实框架的细节之前,许多读者可能受益于对基本估计技术的快速图形介绍。

作者姓名: Stephen Morgan Christopher Winship

作者机构: 约翰霍普金斯大学 哈佛大学

图书目录 一、社会科学中的因果关系与实证研究 1 简介 二、反事实、潜在结果和因果图 2 反事实和潜在结果模型 3 因果图 三、通过对观察到的变量进行条件调节以阻止后门路径来估计因果效应 4 因果暴露模型和识别标准 5 因果效应的匹配估计量 6 因果效应的回归估计 7 因果效应的加权回归估计 四、估计后门调节无效时的因果效应 8 自我选择、异质性和因果图 9 因果效应的工具变量估计量 10 机制与因果解释 11 重复观察和因果效应估计 五、当因果效应不是由可观测点识别时的V估计 12 分布假设、集合识别和敏感性分析 六、结论 13 反事实与观察社会科学实证研究的未来

成为VIP会员查看完整内容
1
36

【导读】哈佛大学公共卫生学院(HSPH)Miguel Hernan与Jamie Robins 教授共同编著了关于因果逻辑推断方面的书作《Causal Inference: What If》,总共分3个部分,22章,311多页,对因果推理的概念和方法做了系统性阐述,是各个领域包括经济学、健康医疗、心理学、计算机等从业人士的重要参鉴材料。

地址: https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/

在本书中,我们强调需要足够认真对待因果问题,才能明确表述它,我们还区别了数据和因果推断假设的不同作用。一旦建立了这些基础,因果推断就必然变得不那么随意,这有助于防止混淆。然后,本书描述了各种数据分析方法,这些方法可用于在收集一组人口中每个个体的数据时,在一组特定的假设下估算感兴趣的因果关系。本书的一个关键信息是,因果推断不能简化为用于数据分析技巧的集合。

本书分为三个难度越来越大的部分:第一部分讲述没有模型的因果推断(即,因果关系的非参数辨识),第二部分是关于模型的因果推论(即,通过参数化模型对因果关系的估计),第三部分从复杂的纵贯数据中得出因果关系的推断(即,估算时变处理的因果关系)。全书还专门设置了很多要点(Fine Points)和技术点(Technical points),解释了正文中提到的某些主题。要点针对所有读者,而技术点则是为接受过统计学方面中等程度训练的读者设计的。本书对之前分散在多个学科期刊中的因果推断概念和方法进行了紧凑的介绍。我们希望对因果推断感兴趣的任何学科的读者都能有所裨益,例如流行病、统计学、心理学、经济学、社会学、政治学、计算机科学。

第 1-10 章重点讲述一些基本概念,通过大量的简单实例和图形的方式,深入浅出地介绍了因果推断中的核心概念和方法。第 11-18 章讲述了各种各样用于进行因果推断的模型,包括工具变量法 (IV)、倾向得分匹配分析 (PSM)、调节效应、结构方程等。第 19-25 章介绍了较为复杂的情形,如面板数据、 动态处理效应、反馈效应等。

目录内容: 第一部分 无模型的因果推断 1 A definition of causal effect 3 2 Randomized experiments 13 3 Observational studies 25 4 Effect modification 41 5 Interaction 55 6 Graphical representation of causal effects 69 7 Confounding 83 8 Selection bias 99 9 Measurement bias 113 10 Random variability 123

第二部分 有模型的因果推断
11 Why model? 139 12 IP weighting and marginal structural models 149 13 Standardization and the parametric g-formula 161 14 G-estimation of structural nested models 171 15 Outcome regression and propensity scores 183 16 Instrumental variable estimation 193 17 Causal survival analysis 209 18 Variable selection for causal inference 223

第三部分 复杂纵向数据因果推断 19 Time-varying treatments 235
20 Treatment-confounder feedback 247 21 G-methods for time-varying treatments 257 22 Target trial emulation 277

成为VIP会员查看完整内容
0
72

The aim of this paper is to offer the first systematic exploration and definition of equivalent causal models in the context where both models are not made up of the same variables. The idea is that two models are equivalent when they agree on all "essential" causal information that can be expressed using their common variables. I do so by focussing on the two main features of causal models, namely their structural relations and their functional relations. In particular, I define several relations of causal ancestry and several relations of causal sufficiency, and require that the most general of these relations are preserved across equivalent models.

0
4
下载
预览

这本书目前作为补充为STAT 432的统计学习的介绍-在伊利诺伊大学厄巴纳-香槟的统计学习的基础。

本文最初的重点是扩展ISL对使用R进行统计学习的介绍,主要是通过添加和修改现有代码。这一文本目前正变得更加独立。为什么?考虑到作者认为ISL是目前最好的本科教材之一,并且是STAT 432创建的驱动力之一,这是一个非常好的问题。然而,课程一旦创建,对内容的精确控制就变得非常有用。这篇课文的主要重点是满足学生在那门课上的需要。其中一些需要包括:

  • 附加的R代码示例和解释
  • 仿真研究
  • 数学的严密性,符合读者的背景
  • 与课程整体结构相匹配的书本结构

换句话说,本文试图复制统计学习介绍的最佳部分,统计学习的元素,和应用预测建模,这是最需要的一组学生。

    1. 预先条件
    1. (监督学习)回归
    1. 监督学习分类
    1. 无监督学习
    1. (统计学习)实践
    1. (统计学习)现代
    1. 附录
成为VIP会员查看完整内容
0
20

在一个常见的机器学习问题中,使用对训练数据集估计的模型,根据观察到的特征预测未来的结果值。当测试数据和训练数据来自相同的分布时,许多学习算法被提出并证明是成功的。然而,对于给定的训练数据分布,性能最好的模型通常会利用特征之间微妙的统计关系,这使得它们在应用于分布与训练数据不同的测试数据时,可能更容易出现预测错误。对于学术研究和实际应用来说,如何开发能够稳定和稳健地转换数据的学习模型是至关重要的。

因果推理是指根据效果发生的条件得出因果关系的结论的过程,是一种强大的统计建模工具,用于解释和稳定学习。本教程侧重于因果推理和稳定学习,旨在从观察数据中探索因果知识,提高机器学习算法的可解释性和稳定性。首先,我们将介绍因果推论,并介绍一些最近的数据驱动方法,以估计因果效应从观测数据,特别是在高维设置。为了弥补因果推理和机器学习之间的差距,我们首先给出了稳定性和鲁棒性学习算法的定义,然后将介绍一些最近的稳定学习算法来提高预测的稳定性和可解释性。最后,我们将讨论稳定学习的应用和未来的发展方向,并提供稳定学习的基准。

http://kdd2020tutorial.thumedialab.com/

成为VIP会员查看完整内容
0
51

数十年来,因果推理是一个跨统计、计算机科学、教育、公共政策和经济学等多个领域的重要研究课题。目前,与随机对照试验相比,利用观测数据进行因果关系估计已经成为一个有吸引力的研究方向,因为有大量的可用数据和较低的预算要求。随着机器学习领域的迅速发展,各种针对观测数据的因果关系估计方法层出不穷。在这项调查中,我们提供了一个全面的综述因果推理方法下的潜在结果框架,一个众所周知的因果推理框架。这些方法根据是否需要潜在结果框架的所有三个假设分为两类。对于每一类,分别对传统的统计方法和最近的机器学习增强方法进行了讨论和比较。并介绍了这些方法的合理应用,包括在广告、推荐、医药等方面的应用。此外,还总结了常用的基准数据集和开放源代码,便于研究者和实践者探索、评价和应用因果推理方法。

地址:

https://www.zhuanzhi.ai/paper/a37f27ed97e5318b30be2999e9a768c3

成为VIP会员查看完整内容
0
143

题目: Causal Inference and Stable Learning

简介:

在一个常见的机器学习问题中,使用一个根据训练数据集估计的模型,根据观察到的特征来预测未来的结果值。当测试数据和训练数据来自相同的分布时,许多学习算法被提出并证明是成功的。然而,对于给定的训练数据分布,性能最好的模型通常利用特征之间微妙的统计关系,这使得它们在应用于测试数据时更容易出现预测错误,因为测试数据的分布与训练数据的分布不同。对于学术研究和实际应用来说,如何建立稳定、可靠的学习模型是至关重要的。因果推理是一种强大的统计建模工具,用于解释和稳定的学习。因果推理是指基于某一效应发生的条件,对某一因果关系做出结论的过程。在本教程中,我们将重点讨论因果推理和稳定学习,旨在从观察数据中探索因果知识,以提高机器学习算法的可解释性和稳定性。首先,我们将介绍因果推理,并介绍一些最近的数据驱动的方法来估计因果效应的观测数据,特别是在高维设置。摘要为了弥补因果推理与机器学习在稳定学习上的差距,我们首先给出了学习算法的稳定性和鲁棒性的定义,然后介绍了一些最近出现的稳定学习算法,以提高预测的稳定性和可解释性。最后,我们将讨论稳定学习的应用和未来方向,并为稳定学习提供基准。

邀请嘉宾:

张潼,香港科技大学计算机科学与数学教授。此前,他是罗格斯大学(Rutgers university)教授,曾在IBM、雅虎(Yahoo)、百度和腾讯(Tencent)工作。张潼的研究兴趣包括机器学习算法和理论、大数据统计方法及其应用。他是ASA和IMS的研究员,曾在主要机器学习期刊的编委会和顶级机器学习会议的项目委员会任职。张潼在康奈尔大学获得数学和计算机科学学士学位,在斯坦福大学获得计算机科学博士学位。

崔鹏,清华大学计算机系长聘副教授,博士生导师。2010年于清华大学计算机系获得博士学位。研究兴趣包括社会动力学建模、大规模网络表征学习以及大数据驱动的因果推理和稳定预测。近5年在数据挖掘及人工智能领域高水平会议和期刊发表论文60余篇,曾5次获得顶级国际会议或期刊论文奖,并先后两次入选数据挖掘领域顶级国际会议KDD最佳论文专刊。目前担任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等国际期刊编委。曾获得国家自然科学二等奖、教育部自然科学一等奖、电子学会自然科学一等奖、CCF-IEEE CS青年科学家奖、ACM中国新星奖。入选中组部万人计划青年拔尖人才,并当选中国科协全国委员会委员。

成为VIP会员查看完整内容
0
117
小贴士
相关主题
相关论文
Peng Wu,ShaSha Han,Xingwei Tong,Runze Li
0+阅读 · 9月16日
Frank Wood,Andrew Warrington,Saeid Naderiparizi,Christian Weilbach,Vaden Masrani,William Harvey,Adam Scibior,Boyan Beronov,John Grefenstette,Duncan Campbell,Ali Nasseri
0+阅读 · 9月15日
Kangjie Zhou,Jinzhu Jia
0+阅读 · 9月11日
Massimo Cavallaro,Yuexuan Wang,Daniel Hebenstreit,Ritabrata Dutta
0+阅读 · 9月10日
Amir Feder,Katherine A. Keith,Emaad Manzoor,Reid Pryzant,Dhanya Sridhar,Zach Wood-Doughty,Jacob Eisenstein,Justin Grimmer,Roi Reichart,Margaret E. Roberts,Brandon M. Stewart,Victor Veitch,Diyi Yang
14+阅读 · 9月2日
Sander Beckers
4+阅读 · 2020年12月10日
Liuyi Yao,Zhixuan Chu,Sheng Li,Yaliang Li,Jing Gao,Aidong Zhang
77+阅读 · 2020年2月5日
Bernhard Schölkopf
10+阅读 · 2019年11月24日
Inferred successor maps for better transfer learning
Tamas J. Madarasz
3+阅读 · 2019年7月2日
Honggang Zhou,Yunchun Li,Hailong Yang,Wei Li,Jie Jia
3+阅读 · 2018年4月26日
Top