Cross-validation (CV) is a standard technique used across science to test how well a model predicts new data. Data are split into $K$ ``folds,'' where one fold (i.e., hold-out set) is used to evaluate a model's predictive ability, with folds cycled in standard $K$-fold CV. Researchers typically rely on conventions when choosing the hold-out size, commonly $80/20$ split, or $K=5$, even though this choice can affect inference and model evaluation. Principally, this split should be determined by balancing the predictive accuracy (bias) and the uncertainty of this accuracy (variance), which forms a tradeoff based on the size of the hold-out set. More training data means more accurate models, but fewer testing data lead to uncertain evaluation, and vice versa. The challenge is that this evaluation uncertainty cannot be identified, without strong assumptions, directly from data. We propose a procedure to determine the optimal hold-out size by deriving a finite-sample exact expression and upper bound on the evaluation uncertainty, depending on the error assumption, and adopting a utility-based approach to make this tradeoff explicit. Analyses of real-world datasets using linear regression and random forest demonstrate this procedure in practice, providing insight into implicit assumptions, robustness, and model performance. Critically, the results show that the optimal hold-out size depends on both the data and the model, and that conventional choices implicitly make assumptions about the fundamental characteristics of the data. Our framework makes these assumptions explicit and provides a principled, transparent way to select this split based on the data and model rather than convention. By replacing a one-size-fits-all choice with context-specific reasoning, it enables more reliable comparisons of predictive performance across scientific domains.


翻译:交叉验证(CV)是科学领域用于评估模型对新数据预测能力的标准技术。数据被划分为$K$个“折”,其中一折(即留出集)用于评估模型的预测能力,在标准的$K$折交叉验证中这些折会循环使用。研究人员在选择留出集大小时通常依赖惯例,常见的是$80/20$划分或$K=5$,尽管这一选择可能影响统计推断和模型评估。原则上,这种划分应通过平衡预测准确性(偏差)与该准确性的不确定性(方差)来确定,这形成了基于留出集大小的权衡关系。更多的训练数据意味着模型更准确,但更少的测试数据会导致评估不确定性增加,反之亦然。挑战在于,若无强假设,这种评估不确定性无法直接从数据中识别。我们提出了一种确定最佳留出集大小的方法:通过推导有限样本下评估不确定性的精确表达式和上界(取决于误差假设),并采用基于效用的方法使这种权衡关系显式化。使用线性回归和随机森林对真实数据集的分析展示了该方法的实际应用,揭示了隐含假设、鲁棒性和模型性能。关键结果表明,最佳留出集大小同时取决于数据和模型,而传统选择隐含地对数据的基本特性作出了假设。我们的框架使这些假设显式化,并提供了一种基于数据和模型(而非惯例)来选择划分的原则性、透明方法。通过用特定情境的推理取代一刀切的选择,该方法能够在科学领域中实现更可靠的预测性能比较。

0
下载
关闭预览

相关内容

交叉验证,有时也称为旋转估计或样本外测试,是用于评估统计结果如何的各种类似模型验证技术中的任何一种分析将概括为一个独立的数据集。它主要用于设置,其目的是预测,和一个想要估计如何准确地一个预测模型在实践中执行。在预测问题中,通常会给模型一个已知数据的数据集,在该数据集上进行训练(训练数据集)以及未知数据(或首次看到的数据)的数据集(根据该数据集测试模型)(称为验证数据集或测试集)。交叉验证的目标是测试模型预测未用于估计数据的新数据的能力,以发现诸如过度拟合或选择偏倚之类的问题,并提供有关如何进行建模的见解。该模型将推广到一个独立的数据集(例如,未知数据集,例如来自实际问题的数据集)。 一轮交叉验证涉及分割一个样品的数据到互补的子集,在一个子集执行所述分析(称为训练集),以及验证在另一子集中的分析(称为验证集合或测试集)。为了减少可变性,在大多数方法中,使用不同的分区执行多轮交叉验证,并将验证结果组合(例如取平均值)在各轮中,以估计模型的预测性能。 总而言之,交叉验证结合了预测中适用性的度量(平均),以得出模型预测性能的更准确估计。
【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子
专知会员服务
17+阅读 · 2021年12月7日
IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
【WWW2021】知识图谱逻辑查询的自监督双曲面表示
专知会员服务
30+阅读 · 2021年4月9日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月25日
VIP会员
相关VIP内容
【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子
专知会员服务
17+阅读 · 2021年12月7日
IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
【WWW2021】知识图谱逻辑查询的自监督双曲面表示
专知会员服务
30+阅读 · 2021年4月9日
相关资讯
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员