【苏黎世联邦理工博士论文】因果推断的混杂调整

混杂现象，即治疗和结果变量都受到某些“混杂”变量的影响，是有效因果推断的最大挑战之一。它支撑了统计中的许多谬误和误解，如辛普森悖论或“相关性并不意味着因果关系”的例子。因此，混杂调整是因果关系领域的核心。然而，这通常不是一项容易的任务，即使我们的数据的因果结构是已知的。混杂变量的维度可能很大，混杂变量可以是离散的，连续的或分类变量的混合，或者它们可以以非参数的方式影响感兴趣的变量。

https://www.research-collection.ethz.ch/handle/20.500.11850/528993

当混杂变量在手边的数据集中是已知的和可观察到的情况下，存在许多不同的混杂调整方法。然而，很少有研究考虑到当混杂是潜在的具有挑战性的情况。尽管因果文献中普遍存在不存在未观察到的混杂因素的假设，但在实践中往往并不成立。这种数据模型的错误规范可能会导致传统方法的性能下降。在这篇论文中，我们引入了新的混杂调整方法，既解决了混杂未被观察到的情况，也解决了混杂变量被观察到的情况，但它们对感兴趣的变量的影响相当复杂，因此传统的方法不适用。在论文A中，我们探讨了潜在混杂的调整问题。由于这个问题极具挑战性，我们考虑一个简单的情况，即数据来自(高维)线性模型，混合变量线性影响观察变量。本文提出频谱反创始估计器，在对数据应用精心选择的线性变换后使用标准Lasso。我们得到了有趣的理论结果，并通过实证验证了它优于忽略潜在混杂存在的传统方法。在论文B中，我们提出了双去偏Lasso估计器，可以看作是谱反发现估计器的推广，其优点是具有良好的渐近分布，从而允许构造渐近有效的置信区间。所提供的理论分析非常详细，并扩展了论文A的理论结果。论文C考虑了生物统计学中的一个重要问题，即检测两种情况(例如癌症和正常细胞)之间因果网络的扰动。提出的方法也扩展到考虑潜在的潜在混杂。虽然它不是直接应用论文A和论文B中开发的方法，但它分享了论文A和论文B中开发的主要思想。在论文D中，我们讨论了观察到混杂的情况，但这种情况可能非常复杂。我们提出了一种称为分布随机森林的通用方法，它能够非参数估计多变量联合条件分布。这是以一种无模型和无目标的方式完成的，因此可以用于许多不同的学习问题，而不仅仅是最初的因果效应估计的混杂调整问题。

成为VIP会员查看完整内容

相关内容

苏黎世联邦理工学院（ETH Zürich）

关注 3

苏黎世联邦理工学院（德语名Eidgenössische Technische Hochschule Zürich，简称ETH Zürich，英文名Swiss Federal Institute of Technology Zurich ）是瑞士联邦政府为了国家工业化的需要，在1855年建立的第一所由联邦所属的大学。在欧洲乃至世界拥有崇高的声望，被称为欧陆第一校。2015/16 THE世界大学排名第9位，2016/17 QS世界大学排名第8位。

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知会员服务

41+阅读 · 2022年11月29日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知会员服务

48+阅读 · 2022年11月4日

阿姆斯特丹大学博士论文《深度表示中的不变性》，96和pdf

专知会员服务

38+阅读 · 2022年11月3日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知会员服务

72+阅读 · 2022年10月29日