会员服务 ·

0

AdaX：一个比Adam更优秀，带”长期记忆“的优化器

2020 年 6 月 24 日 深度学习自然语言处理

文 | 苏剑林（追一科技，人称苏神）

美 | 人美心细小谨思密达

来自 | 夕小瑶的卖萌屋

前言

这篇文章简单介绍一个叫做AdaX的优化器，来自《AdaX: Adaptive Gradient Descent with Exponential Long Term Memory》。介绍这个优化器的原因是它再次印证了之前在《硬核推导Google AdaFactor：一个省显存的宝藏优化器》一文中提到的一个结论，两篇文章可以对比着阅读。

Adam & AdaX

AdaX的更新格式是

其中的默认值是0.0001。对了，顺便附上自己的Keras实现：https://github.com/bojone/adax 作为比较，Adam的更新格式是

其中的默认值是0.999。

等价形式变换

可以看到，两者的第一个差别是AdaX去掉了动量的偏置校正（这一步），但这其实影响不大，AdaX最大的改动是在处，本来是滑动平均格式，而不像是滑动平均了，而且，似乎有指数爆炸的风险？

原论文称之为“with Exponential Long Term Memory”，就是指导致历史累积梯度的比重不会越来越小，反而会越来越大，这就是它的长期记忆性。

事实上，学习率校正用的是，所以有没有爆炸我们要观察的是。对于Adam，我们有

所以如果设，那么更新公式就是

基于同样的道理，如果设，那么AdaX的的更新公式也可以写成上式。

衰减策略比较

所以，从真正用来校正梯度的来看，不管是Adam还是AdaX，其更新公式都是滑动平均的格式，只不过对应的衰减系数不一样。

对于Adam来说，当时t = 0，，这时候就是，也就是用实时梯度来校正学习率，这时候校正力度最大；当时，，这时候是累积梯度平方与当前梯度平方的加权平均，由于，所以意味着当前梯度的权重不为0，这可能导致训练不稳定，因为训练后期梯度变小，训练本身趋于稳定，校正学习率的意义就不大了，因此学习率的校正力度应该变小，并且，学习率最好恒定为常数（这时候相当于退化为SGD），这就要求时，。

对于AdaX来说，当t = 0时，当，，满足上述的理想性质，因此，从这个角度来看，AdaX确实是Adam的一个改进。在AdaFactor中使用的则是，它也是从这个角度设计的。至于AdaX和AdaFactor的策略孰优孰劣，笔者认为就很难从理论上解释清楚了，估计只能靠实验。

就这样结束了

嗯，文章就到这儿结束了。开头就说了，本文只是简单介绍一下AdaX，因为它再次印证了之前的一个结论—— 应当满足条件“ ”，这也许会成为日后优化器改进的基本条件之一。

添加个人微信，备注： 昵称-学校（公司）-方向 ，即可获得

1. 快速学习深度学习五件套资料

2. 进入高手如云DL&NLP交流群

记得备注呦

登录查看更多

0

相关内容

Adam

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

最新《机器学习理论初探》概述

最新《机器学习理论初探》概述

专知会员服务

48+阅读 · 2020年5月19日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

极市平台

21+阅读 · 2019年9月5日

从动力学角度看优化算法：GAN的第三个阶段

从动力学角度看优化算法：GAN的第三个阶段

PaperWeekly

11+阅读 · 2019年5月13日

深度学习优化算法总结(SGD,AdaGrad,Adam等)

深度学习优化算法总结(SGD,AdaGrad,Adam等)

极市平台

34+阅读 · 2019年4月30日

从动力学角度看优化算法：一个更整体的视角

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

中国人工智能学会

6+阅读 · 2018年7月4日

Adam那么棒，为什么还对SGD念念不忘 (2)

Adam那么棒，为什么还对SGD念念不忘 (2)

AI研习社

3+阅读 · 2018年1月1日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

深度学习超参数简单理解

深度学习超参数简单理解

计算机视觉战队

4+阅读 · 2017年11月28日

【教程】如何估算深度神经网络的最优学习率

【教程】如何估算深度神经网络的最优学习率

GAN生成式对抗网络

5+阅读 · 2017年11月18日

Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks

Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks

Arxiv

13+阅读 · 2020年6月24日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

The Matrix Calculus You Need For Deep Learning

The Matrix Calculus You Need For Deep Learning

Arxiv

12+阅读 · 2018年7月2日

Nonparametric Topic Modeling with Neural Inference

Arxiv

3+阅读 · 2018年6月18日

Hierarchical Reinforcement Learning with Deep Nested Agents

Arxiv

3+阅读 · 2018年5月18日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Generalized Hadamard-Product Fusion Operators for Visual Question Answering

Arxiv

4+阅读 · 2018年4月6日

DVQA: Understanding Data Visualizations via Question Answering

Arxiv

8+阅读 · 2018年1月24日

Latent nested nonparametric priors

Arxiv

4+阅读 · 2018年1月15日

VIP会员

相关主题

相关VIP内容

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

最新《机器学习理论初探》概述

最新《机器学习理论初探》概述

专知会员服务

48+阅读 · 2020年5月19日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

发射器定位中的传感器路径规划研究 | 235页

战略无人机 | 2025最新80页

蜂窝通信是否是无人机与无人地面战车主宰战场的关键？

无人机对机动战的影响 | 2025最新文献

相关资讯

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

极市平台

21+阅读 · 2019年9月5日

从动力学角度看优化算法：GAN的第三个阶段

从动力学角度看优化算法：GAN的第三个阶段

PaperWeekly

11+阅读 · 2019年5月13日

深度学习优化算法总结(SGD,AdaGrad,Adam等)

深度学习优化算法总结(SGD,AdaGrad,Adam等)

极市平台

34+阅读 · 2019年4月30日

从动力学角度看优化算法：一个更整体的视角

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

中国人工智能学会

6+阅读 · 2018年7月4日

Adam那么棒，为什么还对SGD念念不忘 (2)

Adam那么棒，为什么还对SGD念念不忘 (2)

AI研习社

3+阅读 · 2018年1月1日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

深度学习超参数简单理解

深度学习超参数简单理解

计算机视觉战队

4+阅读 · 2017年11月28日

【教程】如何估算深度神经网络的最优学习率

【教程】如何估算深度神经网络的最优学习率

GAN生成式对抗网络

5+阅读 · 2017年11月18日

相关论文

Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks

Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks

Arxiv

13+阅读 · 2020年6月24日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

The Matrix Calculus You Need For Deep Learning

The Matrix Calculus You Need For Deep Learning

Arxiv

12+阅读 · 2018年7月2日

Nonparametric Topic Modeling with Neural Inference

Arxiv

3+阅读 · 2018年6月18日

Hierarchical Reinforcement Learning with Deep Nested Agents

Arxiv

3+阅读 · 2018年5月18日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Generalized Hadamard-Product Fusion Operators for Visual Question Answering

Arxiv

4+阅读 · 2018年4月6日

DVQA: Understanding Data Visualizations via Question Answering

Arxiv

8+阅读 · 2018年1月24日

Latent nested nonparametric priors

Arxiv

4+阅读 · 2018年1月15日

大家都在搜

2025最新文献

NTU博士论文

朱克爱德华兹家族

国防科技创新

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员