Momentum is a popular technique in deep learning for gradient-based optimizers. We propose a decaying momentum (Demon) rule, motivated by decaying the total contribution of a gradient to all future updates. Applying Demon to Adam leads to significantly improved training, notably competitive to momentum SGD with learning rate decay, even in settings in which adaptive methods are typically non-competitive. Similarly, applying Demon to momentum SGD improves over momentum SGD with learning rate decay in most cases. Notably, Demon momentum SGD is observed to be significantly less sensitive to parameter tuning than momentum SGD with learning rate decay schedule, critical to training neural networks in practice. Results are demonstrated across a variety of settings and architectures, including image classification, generative models, and language models. Demon is easy to implement and tune, and incurs limited extra computational overhead, compared to the vanilla counterparts. Code is readily available.


翻译:运动动力是深层学习基于梯度的优化器的一种流行技术。 我们提出一种衰落的势头( 化石) 规则, 其动机是降低梯度对未来所有更新的总贡献。 将魔方应用到亚当可以大大改进培训, 特别是通过学习率衰减对SGD动力进行竞争, 即使在适应性方法通常不具有竞争力的环境中也是如此。 同样, 将魔方运用于动力SGD, 使动力SGD在多数情况下会随着学习率衰减而改善。 值得注意的是, 魔方动力 SGD对参数调控速度的敏感度大大低于对学习速率衰减时间表的动力SGD( SRD), 这对于培养神经网络在实际中至关重要。 成果在各种环境和结构( 包括图像分类、 基因模型 和语言模型 ) 中展示出来。 示范易于执行和调节, 并且与香草对口相比, 造成有限的计算间接费用。

0
下载
关闭预览

相关内容

动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。 动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。
近期必读的六篇 ICML 2020【对比学习】相关论文
专知会员服务
57+阅读 · 2020年9月15日
专知会员服务
16+阅读 · 2020年7月27日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
已删除
将门创投
6+阅读 · 2019年1月11日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
6+阅读 · 2019年1月11日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Top
微信扫码咨询专知VIP会员