Readily available proxies for time of disease onset such as time of the first diagnostic code can lead to substantial risk prediction error if performing analyses based on poor proxies. Due to the lack of detailed documentation and labor intensiveness of manual annotation, it is often only feasible to ascertain for a small subset the current status of the disease by a follow up time rather than the exact time. In this paper, we aim to develop risk prediction models for the onset time efficiently leveraging both a small number of labels on current status and a large number of unlabeled observations on imperfect proxies. Under a semiparametric transformation model for onset and a highly flexible measurement error models for proxy onset time, we propose the semisupervised risk prediction method by combining information from proxies and limited labels efficiently. From an initial estimator solely based on the labelled subset, we perform a one-step correction with the full data augmenting against a mean zero rank correlation score derived from the proxies. We establish the consistency and asymptotic normality of the proposed semi-supervised estimator and provide a resampling procedure for interval estimation. Simulation studies demonstrate that the proposed estimator performs well in finite sample. We illustrate the proposed estimator by developing a genetic risk prediction model for obesity using data from Partners Biobank Electronic Health Records (EHR).


翻译:由于缺少详细的文件和人工批注的劳动强度,因此通常只能通过后续时间而不是确切时间来为一小部分子子类确定该疾病目前的状况。在本文件中,我们的目标是为开始时间制定风险预测模型,同时有效地利用关于当前状况的少量标签和大量关于不完美的代理的未贴标签观测,在根据差数进行分析的情况下,可能导致风险预测错误。在半参数转换模型下,在代理启动时间的高度灵活度测量错误模型下,我们建议采用半超值风险预测方法,方法是高效率地综合来自代理和有限标签的信息。从一个仅以标签子类为基础的初始估计器出发,我们进行一步骤的更正,利用从准点得出的零级平均相关得分来增加全部数据。我们建立了拟议的半监督估测算器的一致性和不适中性正常性,并且提供了一种用于代理启动时间的高度灵活的测量误差模型,我们建议采用半超前风险预测器进行半超前风险预测方法。我们从一个仅以标签子类分类为基础的初始估测算器,我们用一个完整的数据来进行一步修正。我们用拟议的测算模型来进行拟议的测测测测算。我们提议的测测测测测测测测测测测的模型,以进行测测测测测测测测测测测的比结果。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
近期必读的六篇 NeurIPS 2020【因果推理】相关论文和代码
专知会员服务
71+阅读 · 2020年10月31日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Age of information without service preemption
Arxiv
0+阅读 · 2021年4月29日
VIP会员
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员