Given a regression dataset of size $n$, most of the classical model selection literature treats the problem of selecting a subset of covariates to be used for prediction of future responses. In this paper we assume that a sample of $\cal J$ regression datasets of different sizes from a population of datasets having the same set of covariates and responses is observed. The goal is to select, for each $n$, a single subset of covariates to be used for prediction of future responses for any dataset of size $n$ from the population (which may or may not be in the sample of datasets). The regression coefficients used in the prediction are estimated using the $n$ observations consisting of covariates and responses in the sample for which prediction of future responses is to be done, and thus they differ across different samples. For example, if the response is a diagnosis, and the covariates are medical background variables and measurements, the goal is to select a standard set of measurements for different clinics, say, where each clinic may estimate and use its own coefficients for prediction (depending on local conditions, prevalence, etc.). The selected subset naturally depends on the sample size $n$, with a larger sample size allowing a more elaborate model. Since we consider prediction for any (or a randomly chosen) dataset in the population, it is natural to consider random covariates. If the population consists of datasets that are similar, our approach amounts to borrowing information, leading to a subset selection that is efficient for prediction. On the other hand, if the datasets are dissimilar, then our goal is to find a "compromise" subset of covariates for the different regressions.


翻译:鉴于一个大小为$美元的回归数据集,大多数古典模式选择文献都处理选择一组用于预测未来答复的共变数的问题。在本文中,我们假设,从一组具有相同共变数和答复的数据集中,将观察到不同规模的美元/cal J$回归数据集样本,从一组具有不同规模的数据集中将观察到不同规模的美元/cal J$回归数据集,目标是为每一组美元/美元/方差数的人群选择一组共变数,用于预测未来对某个规模为美元/方差数的数据集(这些数据集可能或可能不在数据集的样本中)。预测中使用的回归系数是使用由对未来答复作出预测的样本中的共变数和答复组成的美元(因此,它们在不同样本中,如果答复是一种诊断,而共变差数是医疗背景变量和测量,那么目标是为不同的诊所选择一套标准测量方法,如果每个诊所可以估算并使用自己的系数进行预测(取决于当地条件、普遍率、等等 ) 预测所使用的回归系数是美元/ral 值的观察,因此,所选择的子数是更精确的样本中, 。由于选择的数据是比重的大小(我们所选择的比值, ) 将自然数据是比重的比重的大小。 。 。自然数据是比重的比重的比重 。 。 。 。 。 。 。 。 。 。 。 。 任何子值 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
47+阅读 · 2021年1月20日
专知会员服务
50+阅读 · 2020年12月14日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Arxiv
0+阅读 · 2021年2月12日
VIP会员
相关VIP内容
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
47+阅读 · 2021年1月20日
专知会员服务
50+阅读 · 2020年12月14日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员