Modern efficient estimators such as AIPW and TMLE facilitate the application of flexible, non-parametric machine learning algorithms to improve treatment and outcome model fit, allowing for some model misspecification while still maintaining desired bias and variance properties. Recent simulation work has pointed to essential conditions for effective application including: the need for cross-fitting, using of a broad library of well-tuned, flexible learners, and sufficiently large sample sizes. In these settings,cross-fit, doubly robust estimators fit with machine learning appear to be clearly superior to conventional alternatives. However, commonly simulated conditions differ in important ways from settings in which these estimators may be most useful, namely in high-dimensional, observational settings where: costs of measurements limit sample size, high numbers of covariates may only contain a subset of true confounders, and where model misspecification may include the omission of essential biological interactions. In such settings, computationally-intensive and challenging to optimize cross-fit, ensemble learning-based estimators may have less of a practical advantage. We present extensive simulation results drawing data on 331 covariates from 1178 subjects of a multi-omic, longitudinal birth cohort while fixing treatment and outcome effects. We fit models under various conditions including under- and over- (e.g. excess orthogonal covariates) specification, and missing interactions using both state-of-the-art and less-computationally intensive (e.g. singly-fit,parametric) estimators. In real data structures, we find in nearly every scenario (e.g. model misspecification, single- or cross-fit- estimators), that efficient estimators fit with parametric learner out perform those that include non-parametric learners on the basis of bias and coverage.


翻译:AIPW 和 TMLE 等现代高效估测器(TMLE) 等现代有效估测器(AIPW 和 TMLE ) 有利于应用灵活、非参数的机器学习算法,以改善治疗和结果模型的适合性,允许某些模型的偏差特性,同时仍然保持理想的偏差和差异性。最近的模拟工作指出了有效应用的基本条件,包括:需要交叉安装,使用由良好、灵活学习者组成的广泛图书馆,以及足够大的样本大小。在这些环境中,与机器学习相匹配的超强估算器显然优于常规的替代方法。然而,通常模拟的条件与这些估测器可能最有用的环境有很大的不同,即高度、观测环境:测量成本限制样本大小、高差异量的共变异体数量可能包含一系列真实性研究者,而模型的偏差可能包含基本生物互动的遗漏。在这种环境中,计算密集和具有挑战性的挑战性估算器可能比常规的要差得多。 我们对这些估算结果进行了广泛的模拟,同时使用331 的不精确的比值的比值结构的比值的比值分析结果,, 包括每11 模型的模型的模型的比值的模型的模型下的结果。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
153+阅读 · 2019年10月12日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
40+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Double machine learning for sample selection models
Arxiv
0+阅读 · 2021年7月15日
Arxiv
0+阅读 · 2021年7月14日
Techniques for Automated Machine Learning
Arxiv
4+阅读 · 2019年7月21日
Arxiv
18+阅读 · 2019年1月16日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员