Stochastic Gradient Descent (SGD) is being used routinely for optimizing non-convex functions. Yet, the standard convergence theory for SGD in the smooth non-convex setting gives a slow sublinear convergence to a stationary point. In this work, we provide several convergence theorems for SGD showing convergence to a global minimum for non-convex problems satisfying some extra structural assumptions. In particular, we focus on two large classes of structured non-convex functions: (i) Quasar (Strongly) Convex functions (a generalization of convex functions) and (ii) functions satisfying the Polyak-Lojasiewicz condition (a generalization of strongly-convex functions). Our analysis relies on an Expected Residual condition which we show is a strictly weaker assumption than previously used growth conditions, expected smoothness or bounded variance assumptions. We provide theoretical guarantees for the convergence of SGD for different step-size selections including constant, decreasing and the recently proposed stochastic Polyak step-size. In addition, all of our analysis holds for the arbitrary sampling paradigm, and as such, we give insights into the complexity of minibatching and determine an optimal minibatch size. Finally, we show that for models that interpolate the training data, we can dispense of our Expected Residual condition and give state-of-the-art results in this setting.


翻译:常规地使用 SGD 标准趋同理论( SGD ) 。 然而, SGD 标准趋同理论( SGD ) 在 平滑的非 康维克斯 设置中, 向一个固定点的亚直线趋同缓慢。 在这项工作中, 我们为 SGD 提供一些趋同理论理论, 显示 SGD 与一个全球最低非康维克斯问题趋同, 满足一些额外的结构性假设。 特别是, 我们侧重于两大类结构化的非康维克斯 功能:(i) Quasar (Scurgly) Convex 函数( comvex 函数的概括化) 和 (ii) 满足 Polyak- Lojasiewicz 条件的函数( 强凝固功能的概括化) 的次线性子趋同点。 我们的分析基于一个预期的剩余性条件, 这表明, 与先前使用的增长条件、 预期的平滑度或受约束的差异假设相比, 极为弱于一个假设。 我们从理论上保证SGDGD 的趋同,,,, 包括恒、 和最近提议的多级分级分级分级的分级的分级 。 此外级的分级的分级的分级的分级。 此外, 我们的分级的分级的分级模型的分级的分级模型的分级模型的分级模型的分级模型的分级模型的分级模型的分级的分级模型的分级的分级, 我们的分级的分级的分级的分级的分级的分级的分级的分级的分级的分级模型的分级模型的分级模型的分级, 的分级模型的分级。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
7+阅读 · 2017年7月11日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
13+阅读 · 2019年11月14日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
7+阅读 · 2017年7月11日
Top
微信扫码咨询专知VIP会员