It is increasingly common to encounter prediction tasks in the biomedical sciences for which multiple datasets are available for model training. Common approaches such as pooling datasets and applying standard statistical learning methods can result in poor out-of-study prediction performance when datasets are heterogeneous. Theoretical and applied work has shown $\textit{multi-study ensembling}$ to be a viable alternative that leverages the variability across datasets in a manner that promotes model generalizability. Multi-study ensembling uses a two-stage $\textit{stacking}$ strategy which fits study-specific models and estimates ensemble weights separately. This approach ignores, however, the ensemble properties at the model-fitting stage, potentially resulting in a loss of efficiency. We therefore propose $\textit{optimal ensemble construction}$, an $\textit{all-in-one}$ approach to multi-study stacking whereby we jointly estimate ensemble weights as well as parameters associated with each study-specific model. We prove that limiting cases of our approach yield existing methods such as multi-study stacking and pooling datasets before model fitting. We propose an efficient block coordinate descent algorithm to optimize the proposed loss function. We compare our approach to standard methods by applying it to a multi-country COVID-19 dataset for baseline mortality prediction. We show that when little data is available for a country before the onset of the pandemic, leveraging data from other countries can substantially improve prediction accuracy. Importantly, our approach outperforms multi-study stacking and other standard methods in this application. We further characterize the method's performance in simulations. Our method remains competitive with or outperforms multi-study stacking and other earlier methods across a range of between-study heterogeneity levels.


翻译:生物医学的预测任务越来越常见,因为有多种数据集可供模式培训使用。共同的方法,例如汇集数据集和采用标准的统计学习方法,在数据集各异的情况下,可能会导致研究外预测性业绩差。理论和应用工作已经显示$\textit{multi-study encombling}$是一个可行的替代方法,可以促进模型的通用性,使各数据集之间的变异性发挥杠杆作用。多研究组合使用两阶段的 $\textit{stacking}战略,适合特定研究模型和估计全能重量。然而,这种方法忽略了模型安装阶段的全能性预测性,可能导致效率的丧失。因此,我们提议用$\textit{mother-commission commission}来利用多功能。我们共同估算指数的重量和每个研究特定模型的参数。我们证明,我们的方法有限,在模型应用现有的方法,例如多读数据之前,我们用高效的计算方法,我们用高效的计算,我们用高效的计算方法,我们用高效的计算,我们的标准数据方法,我们用其他的标准计算。我们用来在多基的模型中,我们的数据运行中,我们用新的方法,我们用新的方法,我们用来在多基流数据运行中,我们用新的方法,我们使用。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
专知会员服务
52+阅读 · 2020年9月7日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
1+阅读 · 2021年11月26日
Dynamic Transfer Learning for Named Entity Recognition
Arxiv
3+阅读 · 2018年12月13日
VIP会员
相关VIP内容
专知会员服务
44+阅读 · 2020年10月31日
专知会员服务
52+阅读 · 2020年9月7日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员