Adaptive optimization algorithms such as Adam (Kingma & Ba, 2014) are widely used in deep learning. The stability of such algorithms is often improved with a warmup schedule for the learning rate. Motivated by the difficulty of choosing and tuning warmup schedules, Liu et al. (2020) propose automatic variance rectification of Adam's adaptive learning rate, claiming that this rectified approach ("RAdam") surpasses the vanilla Adam algorithm and reduces the need for expensive tuning of Adam with warmup. In this work, we refute this analysis and provide an alternative explanation for the necessity of warmup based on the magnitude of the update term, which is of greater relevance to training stability. We then provide some "rule-of-thumb" warmup schedules, and we demonstrate that simple untuned warmup of Adam performs more-or-less identically to RAdam in typical practical settings. We conclude by suggesting that practitioners stick to linear warmup with Adam, with a sensible default being linear warmup over $2 / (1 - \beta_2)$ training iterations.


翻译:亚当(Kingma & Ba, 2014)等适应性优化算法( Kingma & Ba, 2014) 被广泛用于深层学习。 这种算法的稳定性通常会随着学习速度的暖化而改善。 受选择和调整暖化时间表困难的驱使, 刘等人( 202020年) 提出亚当适应性学习率的自动差异校正, 声称这一校正方法( “ RADAM” ) 比香草亚当算法( “ RADAM ” ) 高出香草亚当的算法( RADAM ), 并减少了亚当用暖化进行昂贵调试的需要 。 在这项工作中, 我们反驳了这项分析, 并提供了基于更新术语规模的暖化必要性的替代解释, 这与培训稳定性更为相关。 我们随后提供了一些“ 规则” 的暖化计划, 我们展示了亚当在典型的实际环境中与RADAM 相同。 我们最后建议从业者与亚当 坚持线性暖,, 合理的默认是线性热度超过 2 / ( -\ et_ 2) 培训 。

1
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2020年12月14日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
74+阅读 · 2020年8月2日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
德先生
53+阅读 · 2019年4月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年2月13日
VIP会员
相关VIP内容
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
德先生
53+阅读 · 2019年4月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员