We prove local convergence of several notable gradient descent algorithms used in machine learning, for which standard stochastic gradient descent theory does not apply directly. This includes, first, online algorithms for recurrent models and dynamical systems, such as \emph{Real-time recurrent learning} (RTRL) and its computationally lighter approximations NoBackTrack and UORO; second, several adaptive algorithms such as RMSProp, online natural gradient, and Adam with $\beta^2\to 1$.Despite local convergence being a relatively weak requirement for a new optimization algorithm, no local analysis was available for these algorithms, as far as we knew. Analysis of these algorithms does not immediately follow from standard stochastic gradient (SGD) theory. In fact, Adam has been proved to lack local convergence in some simple situations \citep{j.2018on}. For recurrent models, online algorithms modify the parameter while the model is running, which further complicates the analysis with respect to simple SGD.Local convergence for these various algorithms results from a single, more general set of assumptions, in the setup of learning dynamical systems online. Thus, these results can cover other variants of the algorithms considered.We adopt an "ergodic" rather than probabilistic viewpoint, working with empirical time averages instead of probability distributions. This is more data-agnostic and creates differences with respect to standard SGD theory, especially for the range of possible learning rates. For instance, with cycling or per-epoch reshuffling over a finite dataset instead of pure i.i.d.\ sampling with replacement, empirical averages of gradients converge at rate $1/T$ instead of $1/\sqrt{T}$ (cycling acts as a variance reduction method), theoretically allowing for larger learning rates than in SGD.


翻译:我们证明了机器学习中使用的若干显著的梯度下降算法的本地趋同性。 首先,我们证明机器学习中使用了数种显著的梯度下降运算法,而对于这种算法来说,标准的随机梯度下降理论并不直接适用。 这包括:首先,对经常性模型和动态系统的在线算法,例如 emph{Real-时间经常性学习} (RTRL) (RTRL) 及其计算较轻的近似近似值 NoBackTrack和UORO) (RTRL) ; 其次,一些适应性算法,例如RMSProp、在线自然梯度(在线自然梯度) 和Adam ($\betet2\to 1美元) 。尽管当地趋同对新的优化算法的要求相对弱小一些,但据我们所知,这些算法的本地分析并不立即从标准的S&QL) 标准梯度梯度梯度梯度梯度变化开始。 在Screalalalal dislational dislations 中, 也可以算算算算算算算算出, 可能的数值递解算算法 。 可能的数值变数法系统, 可能的变数级变数法系统, 代之, 代算算算算算算算算算算法, 代为 代为Sralalalalalvialvialalald dald dalvialalalal dalalal dal dald disald daldald dald daldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldalddaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldal daldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldaldald

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
22+阅读 · 2020年1月28日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
A Modern Introduction to Online Learning
Arxiv
20+阅读 · 2019年12月31日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员