Labeling patients in electronic health records with respect to their statuses of having a disease or condition, i.e. case or control statuses, has increasingly relied on prediction models using high-dimensional variables derived from structured and unstructured electronic health record data. A major hurdle currently is a lack of valid statistical inference methods for the case probability. In this paper, considering high-dimensional sparse logistic regression models for prediction, we propose a novel bias-corrected estimator for the case probability through the development of linearization and variance enhancement techniques. We establish asymptotic normality of the proposed estimator for any loading vector in high dimensions. We construct a confidence interval for the case probability and propose a hypothesis testing procedure for patient case-control labelling. We demonstrate the proposed method via extensive simulation studies and application to real-world electronic health record data.


翻译:在电子健康记录中将病人与其疾病或病状状况(即病例或控制状态)有关的病状或病状贴标签,越来越依赖使用从结构化和无结构化电子健康记录数据中得出的高维变量的预测模型,目前的一个主要障碍是缺乏关于病例概率的有效统计推论方法,在本文中,考虑到高维分散的预测后勤回归模型,我们建议通过开发线性化和差异增强技术,为病例概率提供一个新的、纠正偏差的估算器。我们为高维度的任何装载矢量设定了拟议的估计器的无症状常性。我们为病例概率建立一个信任间隔,并为病人病例控制标签提出假设测试程序。我们通过广泛的模拟研究和应用现实世界电子健康记录数据,展示了拟议方法。

0
下载
关闭预览

相关内容

【硬核书】树与网络上的概率,716页pdf
专知会员服务
70+阅读 · 2021年12月8日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
ERROR: GLEW initalization error: Missing GL version
深度强化学习实验室
9+阅读 · 2018年6月13日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
逻辑回归(Logistic Regression) 模型简介
全球人工智能
5+阅读 · 2017年11月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Logistic回归第二弹——Softmax Regression
机器学习深度学习实战原创交流
9+阅读 · 2015年10月29日
Logistic回归第一弹——二项Logistic Regression
机器学习深度学习实战原创交流
3+阅读 · 2015年10月22日
Arxiv
19+阅读 · 2021年1月14日
Arxiv
4+阅读 · 2020年3月19日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
ERROR: GLEW initalization error: Missing GL version
深度强化学习实验室
9+阅读 · 2018年6月13日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
逻辑回归(Logistic Regression) 模型简介
全球人工智能
5+阅读 · 2017年11月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Logistic回归第二弹——Softmax Regression
机器学习深度学习实战原创交流
9+阅读 · 2015年10月29日
Logistic回归第一弹——二项Logistic Regression
机器学习深度学习实战原创交流
3+阅读 · 2015年10月22日
Top
微信扫码咨询专知VIP会员