科学应用(如个性化(精准)医学)需要因果机制的统计保证,然而在许多情况下,仅有复杂的观察数据可用。这些数据通常具有复杂的底层交互。机器学习的最新进展使得建模这些系统成为可能,但其固有的偏见和黑箱特性给推断带来了挑战。半参数方法能够利用这些强大的非参数回归过程,为数据生成过程中的有趣参数成分提供有效的统计分析。
本论文由三章组成。第一章总结了半参数和因果推断的文献,特别关注双重稳健方法和条件独立性测试。在第二章中,我们探讨了平均部分效应的双重稳健估计——线性模型中线性系数的推广和因果效应的局部度量。这个框架涉及两个插件扰动函数估计,并相互权衡其误差。第一个扰动函数是条件期望函数,其估计要求可微分。我们建议将不必可微分的任意插件机器学习回归与高斯核卷积,并证明在一系列核带宽下,我们可以在对回归均方误差没有渐近成本的情况下实现半参数效率界限。第二个扰动函数是预测变量的对数密度导数,称为得分函数。这个得分函数不依赖于给定预测变量的响应的条件分布。得分估计仅在单变量情况下研究得较多。我们建议使用位置尺度模型将多变量得分估计问题减少到条件均值和方差估计加上单变量得分估计。这使得可以使用任意机器学习回归。模拟结果证实了我们方法的理想特性,并在R包drape(双重稳健平均部分效应)中提供了代码,代码可在https://github.com/harveyklyne/drape获得。
在第三章中,我们考虑在给定第三个连续变量Z的情况下测试两个离散随机变量X和Y的条件独立性。条件独立性测试构成了基于约束的因果结构学习的基础,但已证明任何对所有原假设分布控制尺寸的测试在对抗任何备择假设时都没有检验力。因此,必须限制原假设空间,便于以机器学习方法的性能来做。以前的工作还对X和Y做了强结构假设。一个不做这些假设的双重稳健方法是使用任意机器学习方法计算广义协方差测量,将条件相关性的测试简化为测试一个渐近高斯向量的均值是否为零。这个向量通常是高维的,天真的测试缺乏检验力。我们建议贪婪地合并底层离散变量的标签,以最大化观察到的条件相关性,从而以自适应方式揭示额外结构。我们的测试使用一种新颖的双重引导校准。我们展示了一种以计算有效方式执行此过程的算法。模拟结果证实,在具有低维结构的高维设置中,我们能够提高检验力,同时保持期望的尺寸控制。代码在R包catci(CATegorical Conditional Independence)中提供,代码可在https://github.com/harveyklyne/catci获得。
https://www.repository.cam.ac.uk/items/2b210b4a-43a5-42f0-822a-611ead56e826