The integration and use of data from multiple studies, for the development of prediction models is an important task in several scientific fields. We propose a framework for generalist and specialist predictions that leverages multiple datasets, with potential differences in the relationships between predictors and outcomes. Our framework uses stacking, and it includes three major components: 1) an ensemble of prediction models trained on one or more datasets, 2) task-specific utility functions and 3) a no-data-reuse technique for estimating stacking weights. We illustrate that under mild regularity conditions the framework produces stacked PFs with oracle properties. In particular we show that the the stacking weights are nearly optimal. We also characterize the scenario where the proposed no-data-reuse technique increases prediction accuracy compared to stacking with data reuse in a special case.We perform a simulation study to illustrate these results. We apply our framework to predict mortality using a collection of datasets on long-term exposure to air pollutants.


翻译:将多种研究的数据综合起来并加以使用,以开发预测模型,是若干科学领域的一项重要任务。我们提出了一个通用和专家预测框架,利用多种数据集,在预测数据和结果之间的关系上可能存在差异。我们的框架使用堆叠,包括三个主要组成部分:1)一组经过一个或多个数据集培训的预测模型,2)任务特有的实用功能,3)用于估计堆叠重量的无数据重复使用技术。我们说明,在温和的常规条件下,框架产生堆叠的有骨骼特性的PF。我们特别表明,堆叠的权重几乎是最佳的。我们还说明了拟议中的不使用技术与特殊情况下的数据再利用相比,提高了预测的准确性。我们进行了模拟研究,以说明这些结果。我们运用我们的框架,利用收集的关于空气污染物长期暴露的数据集来预测死亡率。

0
下载
关闭预览

相关内容

专知会员服务
39+阅读 · 2020年9月6日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
专知会员服务
116+阅读 · 2019年12月24日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员