Momentum is a simple and popular technique in deep learning for gradient-based optimizers. We propose a decaying momentum (Demon) rule, motivated by decaying the total contribution of a gradient to all future updates. Applying Demon to Adam leads to significantly improved training, notably competitive to momentum SGD with learning rate decay, even in settings in which adaptive methods are typically non-competitive. Similarly, applying Demon to momentum SGD improves over momentum SGD with learning rate decay in most cases. Notably, Demon momentum SGD is observed to be significantly less sensitive to parameter tuning than momentum SGD with learning rate decay schedule, critical to training deep neural networks in practice.Results are demonstrated across a variety of settings and architectures, including image classification, generative models, and language models. Demon is trivial to implement, easy to tune, and incurs limited extra computational overhead, compared to the vanilla counterparts. Code is readily available.


翻译:运动动力是深层学习基于梯度的优化器的一种简单而流行的技术。 我们提出一种衰落的势头( 守护器) 规则, 其动机是降低梯度对未来所有更新的总贡献。 将魔方应用到亚当可以大大改进培训, 特别是通过学习率衰减, 特别是在适应性方法通常不具竞争力的环境中, 对动力SGD的竞争力。 同样, 将魔方运用于动力SGD, 使动力SGD在多数情况下会随着学习率衰减而改善。 值得注意的是, 魔方动力 SGD对参数调整的敏感度大大低于对学习速率衰减时间表的动力SGD。 这对于培养深神经网络至关重要。 各种环境和结构,包括图像分类、基因模型和语言模型都展示了成果。 与香草的对应方相比,实施、易调和产生有限的计算间接费用是微不足道的。 守则是现成的。

0
下载
关闭预览

相关内容

动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。 动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。
一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
知识图谱在可解释人工智能中的作用,附81页ppt
专知会员服务
140+阅读 · 2019年11月11日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2018年9月11日
Arxiv
3+阅读 · 2018年8月17日
VIP会员
相关资讯
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员