Complexity is a fundamental concept underlying statistical learning theory that aims to inform generalization performance. Parameter count, while successful in low-dimensional settings, is not well-justified for overparameterized settings when the number of parameters is more than the number of training samples. We revisit complexity measures based on Rissanen's principle of minimum description length (MDL) and define a novel MDL-based complexity (MDL-COMP) that remains valid for overparameterized models. MDL-COMP is defined via an optimality criterion over the encodings induced by a good Ridge estimator class. We provide an extensive theoretical characterization of MDL-COMP for linear models and kernel methods and show that it is not just a function of parameter count, but rather a function of the singular values of the design or the kernel matrix and the signal-to-noise ratio. For a linear model with $n$ observations, $d$ parameters, and i.i.d. Gaussian predictors, MDL-COMP scales linearly with $d$ when $d<n$, but the scaling is exponentially smaller -- $\log d$ for $d>n$. For kernel methods, we show that MDL-COMP informs minimax in-sample error, and can decrease as the dimensionality of the input increases. We also prove that MDL-COMP upper bounds the in-sample mean squared error (MSE). Via an array of simulations and real-data experiments, we show that a data-driven Prac-MDL-COMP informs hyper-parameter tuning for optimizing test MSE with ridge regression in limited data settings, sometimes improving upon cross-validation and (always) saving computational costs. Finally, our findings also suggest that the recently observed double decent phenomenons in overparameterized models might be a consequence of the choice of non-ideal estimators.


翻译:复杂度是统计学习理论的基本概念基础,旨在为概括性表现提供信息。 参数计虽然在低度设置中是成功的,但在参数数量超过培训样本数量时,对于超分化设置则不完全合理。 我们根据里萨南最低描述长度原则重新审视复杂度措施,并定义基于新颖MDL的复杂度(MDL-COMP),该复杂度对于超分化模型仍然有效。 MDL-COMP是通过一个最佳标准来定义的。 MDL-COMP 相对于一个好的海脊估计值类引导的编码。我们为线性模型和内核内核模型提供了广泛的MDL-COMP的理论描述,我们为线性模型提供了MDL-COM- COMP 对线性模型和内核内核内核内核模型的理论分析值的理论描述值值值值值值值值值值值值值值值值。 对于美元观察、美元参数和i.d. 高地预测器,MDL-COM- Sl- Sild 的数值比值比值比值比值比值比值比值比值比值比值比值, 当值值值值为美元,我们更值值值值值值值值为美元时,我们为美元时,我们更值,我们更值的数值, 也显示一个数字- 的数值, 的数值级的数值级值, 也显示的数值,, 以内变值- 。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
77+阅读 · 2021年3月16日
专知会员服务
51+阅读 · 2020年12月14日
最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2018年7月31日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
VIP会员
相关VIP内容
专知会员服务
77+阅读 · 2021年3月16日
专知会员服务
51+阅读 · 2020年12月14日
最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
4+阅读 · 2018年7月31日
Top
微信扫码咨询专知VIP会员