【EPFL博士论文】因果推断的方法学进展：实验、识别与估计

因果推断（Causal inference）为推理与决策提供了一个强大的理论框架。然而，其大部分方法依赖于一些在现实应用中可能失效的假设——例如平行趋势（parallel trends）、完全可观测性（full observability）以及已知的因果结构（known causal structure）。本论文旨在发展新的因果方法学，以拓展在这些假设被破坏时的可行边界，研究工作涵盖因果识别理论、半参数估计、算法化实验设计以及结构学习等多个方面。

首先，我们针对面板数据与重复横截面数据的情境，提出了新的因果推断方法。在差分中的差分（Difference-in-Differences, DiD）框架的基础上，我们形式化了三重差分（Triple Difference）框架下的识别策略，并引入了一类鲁棒且高效的半参数估计器，该估计器能够与基于机器学习的干扰函数（nuisance function）估计器相兼容。随后，我们将经典的“变化中的变化”（Changes-in-Changes）模型推广到三重差分设定中，从而在高维结果变量的场景下仍可识别潜在结果分布。

接着，我们探讨了为了识别目标因果效应而设计实验的挑战。现有的识别理论回答了“在给定数据下，因果问题是否可识别”的问题。而当某个效应在现有数据下不可识别时，一个自然的后续问题是：需要哪些额外的数据或干预，才能使该效应变得可识别？我们研究了如何设计最优（最低成本）的干预方案以实现可识别性。同时，我们提出了一个新的框架，用于在不确定的因果图结构（例如从数据中学习到的、边置信度各异的因果图）下进行因果效应识别，从而为在结构不确定时推理可识别性提供了一种系统化的方法。

最后，我们研究了在存在未观测混杂（unobserved confounding）、选择偏差（selection bias）以及非线性依赖的情形下的因果发现问题。首先，我们提出了 L-MARVEL ——一种基于约束的递归因果发现算法，该算法在理论上既完备（complete）又可靠（sound），并在所需条件独立检验次数上达到了当前已知的最优上界。随后，我们提出了一种基于最优传输（optimal transport）的新型因果发现方法，利用单调三角映射（monotone triangular maps），能够在不依赖强函数形式假设的情况下，从观测数据中推断因果结构。

关键词：因果推断、三重差分、识别、估计、面板数据、实验设计、最优传输、因果发现、潜在混杂

成为VIP会员查看完整内容

相关内容

博士论文

关注 121

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

VIP会员