中国博士生提出最先进AI训练优化器，收敛快精度高，网友亲测：Adam可以退休了

会员服务 ·

中国博士生提出最先进AI训练优化器，收敛快精度高，网友亲测：Adam可以退休了

2019 年 8 月 16 日 量子位

栗子鱼羊晓查发自凹非寺
量子位报道 | 公众号 QbitAI

找到一种快速稳定的优化算法，是所有AI研究人员的目标。

但是鱼和熊掌不可兼得。Adam、RMSProp这些算法虽然收敛速度很快，当往往会掉入局部最优解的“陷阱”；原始的SGD方法虽然能收敛到更好的结果，但是训练速度太慢。

最近，一位来自UIUC的中国博士生Liyuan Liu提出了一个新的优化器RAdam。

它兼有Adam和SGD两者的优点，既能保证收敛速度快，也不容易掉入局部最优解，而且收敛结果对学习率的初始值非常不敏感。在较大学习率的情况下，RAdam效果甚至还优于SGD。

RAdam意思是“整流版的Adam”（Rectified Adam），它能根据方差分散度，动态地打开或者关闭自适应学习率，并且提供了一种不需要可调参数学习率预热的方法。

一位Medium网友Less Wright在测试完RAdam算法后，给予了很高的评价：

RAdam可以说是最先进的AI优化器，可以永远取代原来的Adam算法了。

目前论文作者已将RAdam开源，FastAI现在已经集成了RAdam，只需几行代码即可直接调用。

补众家之短

想造出更强的优化器，就要知道前辈们的问题出在哪：

像Adam这样的优化器，的确可以快速收敛，也因此得到了广泛的应用。

但有个重大的缺点是不够鲁棒，常常会收敛到不太好的局部最优解 (Local Optima) ，这就要靠预热 (Warmup)来解决——

最初几次迭代，都用很小的学习率，以此来缓解收敛问题。

为了证明预热存在的道理，团队在IWSLT’14德英数据集上，测试了原始Adam和带预热的Adam。

结果发现，一把预热拿掉，Transformer语言模型的训练复杂度 (Perplexity) ，就从10增到了500。

另外，BERT预训练也是差不多的情况。

为什么预热、不预热差距这样大？团队又设计了两个变种来分析：

缺乏样本，是问题根源

一个变种是Adam-2k：

在前2000次迭代里，只有自适应学习率是一直更新的，而动量 (Momentum) 和参数都是固定的。除此之外，都沿袭了原始Adam算法。

实验表明，在给它2000个额外的样本来估计自适应学习率之后，收敛问题就消失了：

另外，足够多的样本可以避免梯度分布变扭曲 (Distorted) ：

这些发现证明了一点：早期缺乏足够数据样本，就是收敛问题的根源。

下面就要证明，可以通过降低自适应学习率的方差来弥补这个缺陷。

降低方差，可解决问题

一个直接的办法就是：

把ψ-cap里面的ϵ增加。假设ψ-cap(. ) 是均匀分布，方差就是1/12ϵ^2。

这样就有了另一个变种Adam-eps。开始把ϵ设成一个可以忽略的1×10^-8，慢慢增加，到不可忽略的1×10^-4。

从实验结果看，它已经没有Adam原本的收敛问题了：

这就证明了，真的可以通过控制方差来解决问题。另外，它和Adam-2k差不多，也可以避免梯度分布扭曲。

然而，这个模型表现比Adam-2k和带预热的Adam差很多。

推测是因为ϵ太大，会给自适应学习率带来重大的偏差 (Bias) ，也会减慢优化的过程。

所以，就需要一个更加严格的方法，来控制自适应学习率。

论文中提出，要通过估算自由度ρ来实现量化分析。

RAdam定义

RAdam算法的输入有：步长α_t；衰减率{β₁, β₂}，用于计算移动平均值和它的二阶矩。

输出为θ_t。

首先，将移动量的一阶矩和二阶矩初始化为m₀，v₀，计算出简单移动平均值（SMA）的最大长度ρ_∞←2/(1-β₂)-1。

然后按照以下的迭代公式计算出：第t步时的梯度g_t，移动量的二阶矩v_t，移动量的一阶矩m_t，移动偏差的修正和SMA的最大值ρ_t。

如果ρ_∞大于4，那么，计算移动量二阶矩的修正值和方差修正范围：

如果ρ_∞小于等于4，则使用非自适应动量更新参数：

以上步骤都完成后，得出T步骤后的参数θ_T。

测试结果

RAdam在图像分类任务CIFAR-10和ImageNet上测试的结果如下：

尽管在前几个周期内整流项使得RAdam比Adam方法慢，但是在后期的收敛速度是比Adam要更快的。

尽管RAdam在测试精度方面未能超越SGD，但它可以带来更好的训练性能。

此外，RAdam算法对初始学习率是具有鲁棒性的，可以适应更宽范围内的变化。在从0.003到0.1一个很宽的范围内，RAdam表现出了一致的性能，训练曲线末端高度重合。

亲测过的网友Less Wright说，RAdam和他今年测试的许多其它论文都不一样。

其他方法常常是在特定数据集上有良好的效果，但是放在新的数据集上往往表现不佳。

而RAdam在图像分类、语言建模，以及机器翻译等等许多任务上，都证明有效。

(也侧面说明，机器学习的各类任务里，广泛存在着方差的问题。)

Less Wright在ImageNette上进行了测试，取得了相当不错的效果（注：ImageNette是从ImageNet上抽取的包含10类图像的子集）。在5个epoch后，RAdam已经将准确率快速收敛到86%。

如果你以为RAdam只能处理较小数据集上的训练，或者只有在CNN上有较好的表现就大错特错了。即使大道有几十亿个单词的数据集的LSTM模型，RAdam依然有比Adam更好的表现。

总之，RAdam有望提供更好的收敛性、训练稳定性，以及几乎对所有AI应用都用更好的通用性。

关于作者

论文的作者Liyuan Liu是一位90后，本科毕业于中国科学技术大学，曾在微软亚洲研究院实习。而这项工作，也得益于与微软的合作。

早在本科期间，Liyuan Liu就师从国家杰出青年基金获得者，中科大陈恩红教授，以第一作者的身份在ICDM发表过文章。

2016年，Liyuan Liu小哥本科毕业，加入了美国伊利诺伊大学香槟分校数据挖掘小组（DMG），成为美国计算机协会和IEEE院士韩家炜教授课题组的一名CS博士，从事NLP研究。

读博以来，Liyuan Liu开始在各大顶会上崭露头角。在2018年NLP领域国际顶会EMNLP当中，他的一作论文《Efficient Contextualized Representation: Language Model Pruning for Sequence Labeling》就被收录为口头报告。

又是一位闪闪发光的少年英才啊。

论文地址：
https://arxiv.org/abs/1908.03265v1

源代码：
https://github.com/LiyuanLucasLiu/RAdam

— 完 —

活动推荐 | AI计算领域技术盛会

2019人工智能计算大会将于8月27日-28日在北京举办，旨在围绕人工智能的产业需求研讨AI计算，促进AI技术创新、合作发展与人才培养。

门票原价1099元，量子位用户专享福利，识别下图即可限时免费报名。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

登录查看更多

相关内容

RAdam

关注 0

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知会员服务

42+阅读 · 2020年7月5日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

专知会员服务

104+阅读 · 2020年6月28日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

2020的机器学习在研究什么？请看最新8篇ICML2020投稿论文：自监督学习、联邦学习、图学习、数据隐私、语言模型、终身学习……

专知会员服务

65+阅读 · 2020年2月21日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

极市平台

21+阅读 · 2019年9月5日

已删除

将门创投

6+阅读 · 2019年6月10日

田渊栋博士:求道之人，不问寒暑—理解ReLU深度网络训练动态

极市平台

7+阅读 · 2019年6月5日

提高GAN训练稳定性的9大tricks

人工智能前沿讲习班

13+阅读 · 2019年3月19日

CVPR2019 | 专门为卷积神经网络设计的训练方法：RePr

人工智能前沿讲习班

6+阅读 · 2019年3月7日

深度神经网络模型训练中的最新tricks总结【原理与代码汇总】

人工智能前沿讲习班

172+阅读 · 2019年3月6日

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

中国人工智能学会

6+阅读 · 2018年7月4日

ICLR 2018最佳论文公布：Adam的收敛性，球面CNN，连续适应获奖

AI科技评论

4+阅读 · 2018年4月12日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Investigating Meta-Learning Algorithms for Low-Resource Natural Language Understanding Tasks

Arxiv

5+阅读 · 2019年8月27日

Don't Blame Distributional Semantics if it can't do Entailment

Arxiv

3+阅读 · 2019年5月17日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

Topic Modelling of Empirical Text Corpora: Validity, Reliability, and Reproducibility in Comparison to Semantic Maps

Arxiv

4+阅读 · 2018年6月4日

Learning to Sketch with Shortcut Cycle Consistency

Arxiv

5+阅读 · 2018年5月1日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

Wasserstein Auto-Encoders

Arxiv

7+阅读 · 2018年3月12日

PointCNN

Arxiv

8+阅读 · 2018年1月25日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

VIP会员