We establish upper bounds for the expected excess risk of models trained by proper iterative algorithms which approximate the global minima (resp. local minima) under convex (resp. non-convex) loss functions. In contrast to the existing bounds, our results are not limited to a specific algorithm e.g., stochastic gradient descent, and the bounds remain small when the sample size $n$ is large for an arbitrary number of iterations. In concrete, after a certain number of iterations, the bound under convex loss functions is of order $\tilde{\mathcal{O}}(1/n)$. Under non-convex loss functions with $d$ model parameters such that $d/n$ is smaller than a threshold independent of $n$, the order of $\tilde{\mathcal{O}}(1/n)$ can be maintained if the empirical risk has no spurious local minima with high probability. The bound becomes $\tilde{\mathcal{O}}(1/\sqrt{n})$ if we discard the assumption on the empirical local minima. Technically, we assume the Hessian of the population risk is non-degenerate at each local minima. Under this and some other mild smoothness and boundedness assumptions, we establish our results via algorithmic stability \citep{bousquet2002stability} and characterization of the empirical risk landscape. Our bounds are dimensional insensitive and fast converges to zero as $n$ goes to infinity. These underscore that with locally strongly convex population risk, the models trained by proper iterative algorithms generalize well on unseen data even when the loss function is non-convex and $d$ is large.


翻译:我们为经过适当迭代算法培训的模型的预期超值风险设定了上限。 具体地说, 由适当的迭代算法将全球迷你( resp. lodal minima) 约合于colvex (O ⁇ ( 1/ nn) 损失) 。 与现有的界限相比, 我们的结果并不局限于特定的算法, 例如, 随机梯度梯度下降, 当样本大小为美元, 任意迭代次数较大时, 界限仍然很小。 具体地说, 在经过一定数量的迭代算法后, 顺流值损失值值值为 $\ telde{ mathlivalal=O ⁇ ( 1/ 1/ n) 。 在非convex 损失函数中, 美元/ n美元比值小, 美元比值小, 比值值单值的阈值低, 当实验风险没有刺激本地迷你 {O\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年5月21日
专知会员服务
50+阅读 · 2020年12月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年7月16日
Arxiv
0+阅读 · 2021年7月14日
Arxiv
0+阅读 · 2021年7月14日
Arxiv
0+阅读 · 2021年7月14日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年5月21日
专知会员服务
50+阅读 · 2020年12月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员