Adam优化器再次改进，用长期记忆限制过高学习率，北大孙栩课题组提出

会员服务 ·

Adam优化器再次改进，用长期记忆限制过高学习率，北大孙栩课题组提出

2020 年 1 月 14 日 量子位

晓查发自凹非寺
量子位报道 | 公众号 QbitAI

Adam作为一种快速收敛的优化器被广泛采用，但是它较差的收敛性限制了使用范围，为了保证更优的结果，很多情况下我们还在使用SGD。

但SGD较慢的收敛速度也令人头疼，所以人们一直在研究进一步优化Adam的方法。AdaBound、RAdam都是在这方面的尝试。

最近北京大学孙栩课题组提出了一种新的优化器AdaMod。这是一种基于Adam的改进优化器，具有自动预热试探法和长期学习速率缓冲。

AdaMod的名称来自Adaptive（自适应）和Momental Bound（矩限制）。

在训练过程中，AdaMod可以轻松击败Adam，同时对学习率超参数、训练曲线都不那么敏感，并且不需要预热。

优点

AdaMod的原理是，在训练的同时计算自适应学习率的指数长期平均值，并使用该平均值来修剪训练过程中过高的学习率。

这一做法提高了优化器的收敛性，无需进行预热，并且降低了对学习率的敏感性。

在上图中，我们可以看出，SGDM和Adam的训练结果都依赖于初始学习率的选择。而AdaMod即使学习率相差两个数量级，也能收敛到同一结果。

相比Adam优化器，AdaMod只增加了一个超参数β₃，用来描述训练中记忆长短的程度。

这种长期记忆解决了自适应学习率的异常过大数值，免于让优化器陷入了不良的状态。

与之前的RAdam优化器类似，AdaMod能够从训练开始就控制自适应学习率的变化，从而确保训练开始时的稳定性，无需预热。

算法实现

其实，AdaMod的思路也很简单，只是在Adam的基础上做了一个小幅的修改。

如AdaBound所描述的，不稳定和异常的学习率通常出现在训练快结束时，这会危及自适应方法的泛化性能。

局限性

尽管AdaMod胜过Adam，但是在更长的训练条件下，SGDM仍然可以胜过AdaMod。

因此，有人提出了结合DiffGrad和AdaMod的DiffMod算法，使用另一个参数“len_memory”代替β₃，可以将batch的总数传递它，更易于记忆和追踪。

关于作者

这篇文章的第一作者是Ding Jianbang，通讯作者是孙栩副教授，他本科毕业华中科技大学，2010年从东京大学博士毕业，曾在微软公司美国雷蒙德研究院实习。

他的研究方向为自然语言处理、机器学习、深度学习，曾担任EMNLP、IJCNLP等国际学术会议的领域主席。

之前的AdaBound优化器就是孙栩组的骆梁宸同学提出的。本文的第一作者也感谢了与骆梁宸等人参与的讨论。

传送门

博客讨论：
https://medium.com/@lessw/meet-adamod-a-new-deep-learning-optimizer-with-memory-f01e831b80bd

论文地址：
https://arxiv.org/abs/1910.12249v1

AdaMod源代码：
https://github.com/lancopku/AdaMod

DiffMod源代码：
https://github.com/lessw2020/Best-Deep-Learning-Optimizers/blob/master/adamod/diffmod.py

— 完 —

新年福利 | 抽奖送小度智能音箱

新年快乐！抽3位小伙伴送出小度在家1C红色版，点击“阅读原文”，即可在微博参与转发抽奖，周三10点开奖哦 ~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

Adam

关注 0

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

一文看懂神经网络初始化！吴恩达Deeplearning.ai最新干货

新智元

7+阅读 · 2019年5月14日

深度学习优化算法总结(SGD,AdaGrad,Adam等)

极市平台

34+阅读 · 2019年4月30日

自 Adam 出现以来，深度学习优化器发生了什么变化？

机器之心

9+阅读 · 2018年12月9日

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

中国人工智能学会

6+阅读 · 2018年7月4日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Learning to Propagate for Graph Meta-Learning

Arxiv

14+阅读 · 2019年9月11日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection

Arxiv

4+阅读 · 2018年9月23日

Convolutional Sequence to Sequence Learning

Arxiv

4+阅读 · 2017年7月25日

VIP会员