This paper presents a novel data-driven strategy to choose the hyperparameter $k$ in the $k$-NN regression estimator. We treat the problem of choosing the hyperparameter as an iterative procedure (over $k$) and propose using an easily implemented in practice strategy based on the idea of early stopping and the minimum discrepancy principle. This model selection strategy is proven to be minimax-optimal, under the fixed-design assumption on covariates, over some smoothness function classes, for instance, the Lipschitz functions class on a bounded domain. After that, the novel strategy shows consistent simulation results on artificial and real-world data sets in comparison to other model selection strategies, such as the Hold-out method and generalized cross-validation. The novelty of the strategy comes from reducing the computational time of the model selection procedure while preserving the statistical (minimax) optimality of the resulting estimator. More precisely, given a sample of size $n$, if one should choose $k$ among $\left\{ 1, \ldots, n \right\}$, the strategy reduces the computational time of the generalized cross-validation or Akaike's AIC criteria from $\mathcal{O}\left( n^3 \right)$ to $\mathcal{O}\left( n^2 (n - k) \right)$, where $k$ is the proposed (minimum discrepancy principle) value of the nearest neighbors.


翻译:本文展示了一种由数据驱动的新策略, 以选择$k$- NN 回归验证器中的超参数 $k美元 。 我们把选择超参数的问题当作一个迭代程序( 超过 $k$ ), 并提议使用基于早期停止和最小差异原则的简单实际战略。 这个模式选择策略被证明是小型最大最佳的, 在固定设计假设的共变假设下, 超越某些平滑功能类别, 比如, Lipschitz 函数类在约束域中。 在此之后, 新的策略将人造和真实世界数据集的模拟结果与其他模式选择战略相比是一致的, 如 Hold-out 方法和通用交叉校验。 战略的新颖在于缩短模型选择程序的计算时间, 同时保留由此得出的估计值的统计( 最小) 最佳性。 更精确地说, 如果在 $left\ 1,\ ldots, ncrick$, n_\\\ kright right 原则中选择 美元, 战略会降低 A- pral- reck rick ral exal exal ration ration rational ration rational ration ration rational rence a- cal rational rational rational rational $.

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
最新《自动微分手册》77页pdf
专知会员服务
100+阅读 · 2020年6月6日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年3月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
最新《自动微分手册》77页pdf
专知会员服务
100+阅读 · 2020年6月6日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年3月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员