混杂现象,即治疗和结果变量都受到某些“混杂”变量的影响,是有效因果推断的最大挑战之一。它支撑了统计中的许多谬误和误解,如辛普森悖论或“相关性并不意味着因果关系”的例子。因此,混杂调整是因果关系领域的核心。然而,这通常不是一项容易的任务,即使我们的数据的因果结构是已知的。混杂变量的维度可能很大,混杂变量可以是离散的,连续的或分类变量的混合,或者它们可以以非参数的方式影响感兴趣的变量。
https://www.research-collection.ethz.ch/handle/20.500.11850/528993
当混杂变量在手边的数据集中是已知的和可观察到的情况下,存在许多不同的混杂调整方法。然而,很少有研究考虑到当混杂是潜在的具有挑战性的情况。尽管因果文献中普遍存在不存在未观察到的混杂因素的假设,但在实践中往往并不成立。这种数据模型的错误规范可能会导致传统方法的性能下降。在这篇论文中,我们引入了新的混杂调整方法,既解决了混杂未被观察到的情况,也解决了混杂变量被观察到的情况,但它们对感兴趣的变量的影响相当复杂,因此传统的方法不适用。在论文A中,我们探讨了潜在混杂的调整问题。由于这个问题极具挑战性,我们考虑一个简单的情况,即数据来自(高维)线性模型,混合变量线性影响观察变量。本文提出频谱反创始估计器,在对数据应用精心选择的线性变换后使用标准Lasso。我们得到了有趣的理论结果,并通过实证验证了它优于忽略潜在混杂存在的传统方法。在论文B中,我们提出了双去偏Lasso估计器,可以看作是谱反发现估计器的推广,其优点是具有良好的渐近分布,从而允许构造渐近有效的置信区间。所提供的理论分析非常详细,并扩展了论文A的理论结果。论文C考虑了生物统计学中的一个重要问题,即检测两种情况(例如癌症和正常细胞)之间因果网络的扰动。提出的方法也扩展到考虑潜在的潜在混杂。虽然它不是直接应用论文A和论文B中开发的方法,但它分享了论文A和论文B中开发的主要思想。在论文D中,我们讨论了观察到混杂的情况,但这种情况可能非常复杂。我们提出了一种称为分布随机森林的通用方法,它能够非参数估计多变量联合条件分布。这是以一种无模型和无目标的方式完成的,因此可以用于许多不同的学习问题,而不仅仅是最初的因果效应估计的混杂调整问题。