In this paper, a general stochastic optimization procedure is studied, unifying several variants of the stochastic gradient descent such as, among others, the stochastic heavy ball method, the Stochastic Nesterov Accelerated Gradient algorithm (S-NAG), and the widely used Adam algorithm. The algorithm is seen as a noisy Euler discretization of a non-autonomous ordinary differential equation, recently introduced by Belotto da Silva and Gazeau, which is analyzed in depth. Assuming that the objective function is non-convex and differentiable, the stability and the almost sure convergence of the iterates to the set of critical points are established. A noteworthy special case is the convergence proof of S-NAG in a non-convex setting. Under some assumptions, the convergence rate is provided under the form of a Central Limit Theorem. Finally, the non-convergence of the algorithm to undesired critical points, such as local maxima or saddle points, is established. Here, the main ingredient is a new avoidance of traps result for non-autonomous settings, which is of independent interest.


翻译:本文研究了一般随机优化程序,统一了随机梯度下降的若干变种,例如重球法、Stochacistic Nesterov加速梯度算法(S-NAG)和广泛使用的亚当算法。这一算法被视为非自主普通差分方的杂音分解,最近由Belotto da Silva和Gazeau采用,对此进行了深入分析。假设客观功能是不可凝固和可变的,迭代国与一组临界点的稳定性和几乎肯定的汇合已经确立。一个值得注意的特殊案例是,S-NAG在非convex环境下的趋同证据。根据一些假设,这种趋同率是以中央限制理论的形式提供的。最后,算法与不受欢迎的临界点(如本地峰值或马鞍点)不相容。在这里,主要成份是避免非自治环境的陷阱结果,这是独立的兴趣。

0
下载
关闭预览

相关内容

专知会员服务
81+阅读 · 2021年5月10日
【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测
专知会员服务
16+阅读 · 2020年8月16日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
基础 | 深度学习中的优化算法
黑龙江大学自然语言处理实验室
5+阅读 · 2018年5月11日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adam那么棒,为什么还对SGD念念不忘
人工智能头条
6+阅读 · 2018年3月25日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月8日
Arxiv
7+阅读 · 2020年6月29日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
基础 | 深度学习中的优化算法
黑龙江大学自然语言处理实验室
5+阅读 · 2018年5月11日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adam那么棒,为什么还对SGD念念不忘
人工智能头条
6+阅读 · 2018年3月25日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员