Many popular learning-rate schedules for deep neural networks combine a decaying trend with local perturbations that attempt to escape saddle points and bad local minima. We derive convergence guarantees for bandwidth-based step-sizes, a general class of learning rates that are allowed to vary in a banded region. This framework includes many popular cyclic and non-monotonic step-sizes for which no theoretical guarantees were previously known. We provide worst-case guarantees for SGD on smooth non-convex problems under several bandwidth-based step sizes, including stagewise $1/\sqrt{t}$ and the popular step-decay (constant and then drop by a constant), which is also shown to be optimal. Moreover, we show that its momentum variant converges as fast as SGD with the bandwidth-based step-decay step-size. Finally, we propose novel step-size schemes in the bandwidth-based family and verify their efficiency on several deep neural network training tasks.


翻译:许多广受欢迎的深神经网络学习速度表将衰败的趋势与试图逃离马鞍点和不良当地迷你的局部扰动结合起来。我们为基于带宽的阶梯尺寸(一个在带宽区域允许差异的普通学习率类别)提供趋同保证。这个框架包括许多以前没有理论保证的流行的环球和非单调级尺寸。我们为SGD提供最坏的保证,保证其在若干基于带宽的阶梯尺寸下顺利解决非康氏问题,包括分阶段的1/\\sqrt{t}$和流行的继发式(固定,然后以恒定),这也证明是最佳的。此外,我们表明其动力变异与SGD一样快速地与基于带宽度的阶梯度梯度梯度大小相融合。最后,我们提议在基于带宽度的家庭内建立新型的阶梯度计划,并核实其在若干深神经网络训练任务上的效率。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
5+阅读 · 2019年4月29日
Arxiv
7+阅读 · 2020年6月29日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年4月29日
Top
微信扫码咨询专知VIP会员