Labeling patients in electronic health records with respect to their statuses of having a disease or condition, i.e. case or control statuses, has increasingly relied on prediction models using high-dimensional variables derived from structured and unstructured electronic health record data. A major hurdle currently is a lack of valid statistical inference methods for the case probability. In this paper, considering high-dimensional sparse logistic regression models for prediction, we propose a novel bias-corrected estimator for the case probability through the development of linearization and variance enhancement techniques. We establish asymptotic normality of the proposed estimator for any loading vector in high dimensions. We construct a confidence interval for the case probability and propose a hypothesis testing procedure for patient case-control labelling. We demonstrate the proposed method via extensive simulation studies and application to real-world electronic health record data.


翻译:在电子健康记录中将病人与其疾病或病状状况(即病例或控制状态)有关的病状或病状贴标签,越来越依赖使用从结构化和无结构化电子健康记录数据中得出的高维变量的预测模型,目前的一个主要障碍是缺乏关于病例概率的有效统计推论方法,在本文中,考虑到高维分散的预测后勤回归模型,我们建议通过开发线性化和差异增强技术,为病例概率提供一个新的、纠正偏差的估算器。我们为高维度的任何装载矢量设定了拟议的估计器的无症状常性。我们为病例概率建立一个信任间隔,并为病人病例控制标签提出假设测试程序。我们通过广泛的模拟研究和应用现实世界电子健康记录数据,展示了拟议方法。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
已删除
将门创投
4+阅读 · 2020年1月6日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
逻辑回归(Logistic Regression) 模型简介
全球人工智能
5+阅读 · 2017年11月1日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Logistic回归第一弹——二项Logistic Regression
机器学习深度学习实战原创交流
3+阅读 · 2015年10月22日
Arxiv
0+阅读 · 2021年8月4日
Arxiv
0+阅读 · 2021年8月4日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2020年1月6日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
逻辑回归(Logistic Regression) 模型简介
全球人工智能
5+阅读 · 2017年11月1日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Logistic回归第一弹——二项Logistic Regression
机器学习深度学习实战原创交流
3+阅读 · 2015年10月22日
Top
微信扫码咨询专知VIP会员