It is generally recognized that finite learning rate (LR), in contrast to infinitesimal LR, is important for good generalization in real-life deep nets. Most attempted explanations propose approximating finite-LR SGD with Ito Stochastic Differential Equations (SDEs). But formal justification for this approximation (e.g., (Li et al., 2019a)) only applies to SGD with tiny LR. Experimental verification of the approximation appears computationally infeasible. The current paper clarifies the picture with the following contributions: (a) An efficient simulation algorithm SVAG that provably converges to the conventionally used Ito SDE approximation. (b) Experiments using this simulation to demonstrate that the previously proposed SDE approximation can meaningfully capture the training and generalization properties of common deep nets. (c) A provable and empirically testable necessary condition for the SDE approximation to hold and also its most famous implication, the linear scaling rule (Smith et al., 2020; Goyal et al., 2017). The analysis also gives rigorous insight into why the SDE approximation may fail.


翻译:人们普遍承认,与微小LR相比,有限学习率(LR)对于在实际生活中深水网中很好地普遍化十分重要,大多数尝试解释都提议与Ito Stopchatic 差异(SDEs)相近,但这种近似的正式理由(例如(Li等人,2019a))只适用于小LR(SGD),对近亲的实验性核查在计算上似乎不可行。 本文用以下贡献澄清了情况:(a) 高效的模拟算法SVAG,可以与传统使用的Ito SDE近似法相近。 (b) 利用这种模拟进行实验,以证明先前提议的SDE近似性能够有意义地捕捉共同深水网的培训和一般化特性。 (c) SDE近似可证实和可实验性测试的必要条件,以及最有名的含意的含义,即线性调整规则(Smith等人,2020年;Goyal等人,201717年)。

0
下载
关闭预览

相关内容

【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
专知会员服务
50+阅读 · 2020年12月14日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年4月15日
Arxiv
0+阅读 · 2021年4月14日
Arxiv
7+阅读 · 2020年6月29日
Arxiv
6+阅读 · 2018年10月3日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员