A key challenge in estimating causal effects from observational data is handling confounding and is commonly achieved through weighting methods that balance distribution of covariates between treatment and control groups. Weighting approaches can be classified by whether weights are estimated using parametric or nonparametric methods, and by whether the model relies on modeling and inverting the propensity score or directly estimates weights to achieve distributional balance by minimizing a measure of dissimilarity between groups. Parametric methods, both for propensity score modeling and direct balancing, are prone to model misspecification. In addition, balancing approaches often suffer from the curse of dimensionality, as they assign equal importance to all covariates, thus potentially de-emphasizing true confounders. Several methods, such as the outcome adaptive lasso, attempt to mitigate this issue through variable selection, but are parametric and focus on propensity score estimation rather than direct balancing. In this paper, we propose a nonparametric direct balancing approach that uses random forests to adaptively emphasize confounders. Our method jointly models treatment and outcome using random forests, allowing the data to identify covariates that influence both processes. We construct a similarity measure, defined by the proportion of trees in which two observations fall into the same leaf node, yielding a distance between treatment and control distributions that is sensitive to relevant covariates and captures the structure of confounding. Under suitable assumptions, we show that the resulting weights converge to normalized inverse propensity scores in the L2 norm and provide consistent treatment effect estimates. We demonstrate the effectiveness of our approach through extensive simulations and an application to a real dataset.


翻译:从观测数据估计因果效应的一个关键挑战在于处理混杂因素,通常通过加权方法实现,该方法平衡处理组与对照组之间的协变量分布。加权方法可根据权重估计是否采用参数或非参数方法进行分类,也可根据模型是否依赖倾向得分建模与求逆,或直接通过最小化组间差异度量来估计权重以实现分布平衡。无论是倾向得分建模还是直接平衡,参数方法均容易受到模型误设的影响。此外,平衡方法常受维度灾难困扰,因其对所有协变量赋予同等重要性,从而可能弱化真实混杂因素的影响。诸如结果自适应套索等若干方法试图通过变量选择缓解此问题,但这些方法属于参数方法且侧重于倾向得分估计而非直接平衡。本文提出一种非参数直接平衡方法,利用随机森林自适应地强调混杂因素。我们的方法使用随机森林联合建模处理与结果,让数据自主识别影响两个过程的协变量。我们构建了一种相似性度量,定义为两个观测值落入同一叶节点的树的比例,从而得到一种对相关协变量敏感且能捕捉混杂结构的处理组与对照组分布间距离。在适当假设下,我们证明所得权重在L2范数下收敛于归一化逆倾向得分,并提供一致的因果效应估计。通过大量模拟实验及真实数据集应用,我们验证了所提方法的有效性。

0
下载
关闭预览

相关内容

数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
EKF常用于目标跟踪系统的扩展卡尔曼滤波器
无人机
10+阅读 · 2017年7月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
EKF常用于目标跟踪系统的扩展卡尔曼滤波器
无人机
10+阅读 · 2017年7月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员