基于Amos优化器思想推导出来的一些“炼丹策略”

2022 年 11 月 24 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

如果将训练模型比喻为“炼丹”，那么“炼丹炉”显然就是优化器了。据传 AdamW 优化器是当前训练神经网络最快的方案，这一点笔者也没有一一对比过，具体情况如何不得而知，不过目前做预训练时多数都用 AdamW 或其变种 LAMB 倒是真的。然而，正如有了炼丹炉也未必能炼出好丹，即便我们确定了选择 AdamW 优化器，依然有很多问题还没有确定的答案，比如：

1. 学习率如何适应不同初始化和参数化？

2. 权重衰减率该怎么调？

3. 学习率应该用什么变化策略？

4. 能不能降低优化器的显存占用？

尽管在实际应用时，我们大多数情况下都可以直接套用前人已经调好的参数和策略，但缺乏比较系统的调参指引，始终会让我们在“炼丹”之时感觉没有底气。在这篇文章中，我们基于 Google 最近提出的 Amos 优化器的思路，给出一些参考结果。

基础回顾

Amos 优化器出自最近的论文《Amos: An Adam-style Optimizer with Adaptive Weight Decay towards Model-Oriented Scale》[1]，它对上述几个问题都推导了比较完整的推导，并通过实验证实了它的有效性。然而，原论文的推导实在是不好读，各种记号和估计都过于随意，给人很“凌乱”感觉。不过好在 Amos 的思想还不算复杂，我们可以借用一下。

在开始推导之前，我们不妨先回顾一下对于上述几个问题，现有的解决方案是怎样的。

首先，第一个问题，大家可能不大理解“初始化”和“参数化”分别是什么含义，其实这就是模型权重的两种设置方式，常见的就是一个的矩阵，一般用“均值为 0、方差为1/n”的方式初始化，详细介绍可以参考笔者之前《从几何视角来理解模型参数的初始化策略》 [2] 、《浅谈Transformer的初始化、参数化与标准化》 [3] 。

从“方差为 1/n”我们就可以看到，不同参数有着不同的尺度（或者说数量级），如果我们用同一个学习率更新所有参数，那么就会导致每个参数的更新幅度不一样。这个问题笔者觉得比较优雅的解决方案就是 LAMB 优化器，它每次更新的模长直接取决于参数本身的模长，学习率只是用来描述相对更新量的大小。

至于权重衰减率问题，至少在预训练领域，笔者观察到的是都是沿用最早的选择 0.01，没有发现去调整该参数的工作。而对于学习率变化策略，大家都知道应该要将学习率慢慢降到零，但具体应该选用什么什么下降策略，暂时也没有太多的理论指导，多数结果也只是实验总结出来的。

最后，关于节省显存问题，比较经典的工作就是 AdaFactor 优化器，笔者之前在《AdaFactor优化器浅析（附开源实现）[4]》也有过介绍。降低优化器显存占用的主要就两个思路，一是去掉动量，二是对二阶矩做低秩分解，Amos 本质上也是沿用了这两个思路。

问题设置

本文主要关心开头的前三个问题，希望能够推导出一些“即插即用”的结果。首先，我们将优化器的更新规则简写成：

其实分别代表时刻的参数值，代表时刻的更新向量（依赖于任务和数据），而标量（向量的每个元素都大于 0）代表时刻的学习率。

自 AdamW 起，主流优化器都倾向于把权重衰减（Weight Decay）项从中独立出来，即

其中是权重衰减率。本文的主要任务，就是希望能解决和该怎么设置的问题。

权重衰减

我们知道，权重衰减也好，L2 正则也好，它本身是跟训练目标无关的，它只是一个辅助项，目的是提高模型的泛化能力。既然是辅助，那么一个基本的要求就是它不应该“喧宾夺主”，为此，我们不妨加入一个限制：

也就是说，在整个更新过程中，权重衰减带来的更新量始终要比目标相关的更新量高一阶，由于基本上都是小于 1 的，所以更高阶意味着更小。

设优化的参数终点是，我们记，根据更新规则可以得到

最后的近似只保留了不超过的项。

很明显，是当前结果与终点的距离，它自然是越小越好，因此我们自然也希望每一步的更新都能缩小这个距离，即。

而我们看式 (4)，可正可负，如果它为负就有助于实现，但是必然是正的，它是不利于实现，不过在引入权重衰减后，多出了一项，如果这一项能抵消掉的负面作用，那么权重衰减的引入就不仅能增强泛化能力，还有利于模型收敛了。

可行分析

所以，接下来的事情，我们就是要考察

的可行性。所谓可行性，就是能否大于 0，只有它大于 0，左右两端才有可能相等。利用的定义我们得到，于是

注意是我们的目标，是一个固定的点，而是当前时刻与目标的差异向量，两者一般来说没什么必然的相关性，于是我们可以近似认为它们是高维空间中两个随机向量。根据《n维空间下两个随机向量的夹角分布》[5]，我们知道高维空间中两个随机向量几乎都是垂直的，于是。当然，如果不放心，还可以引入一个参数：

此时式 (5) 就变成了

两端都大于 0，因此式 (5) 是有可能成立的。

渐近估计

如果式 (5) 成立，那么式 (4) 就简化为了

我们说了代表的是任务相关的更新量，平均来说它必然是有利于任务的（否则原来的优化器就是有缺陷的了），所以平均来说应该有。这里我们进一步假设，存在一个，使得，于是我们有

根据近似 (8) 我们有

，代入上式得到

一步一步往前递推，可以得到

可以看出右端的指数必然是单调递减的，它是一个衰减函数。现在我们再看近似 (8) 它有两个参数和要调，但只有一个（近似）等式。为了使和能够同等程度地衰减，我们设，于是解得

这就是本文推出的的变化规律。当然，变化规律是有了，可是还有四个参数要确定，其中相对来说比较简单，直接设问题也不大，但即便这样还有三个参数要确定。

尺度预判

根据定义，，也就是初始化参数与目标参数的距离，可以理解为参数的变化尺度，它有几种不同的情况。

第一种，参数是矩阵乘法核，比如全连接层、卷积层的 kernel 矩阵，它们的初始化一般是“均值为 0、方差为 ”（取决于 shape）的随机初始化，这样如果，那么我们就可以估算出。

另外，这类参数有一个特点，就是在合理的初始化下，训练完成后参数的均值方差也不会有太大变化，至少量级是一致的，因此也可以认为，而因为初始化是随机的，所以，因此

第二种，参数是加性偏置项，比如全连接层、卷积层的 bias 向量，以及 Normalization 层的向量，这些参数一般是“全零初始化”，所以，如果我们根据经验预测训练好的模型偏置项都在附近，那么也可以估计出，Amos 原论文取了。最后还有 Normalization 层的向量，它一般是“全 1 初始化”，训练完成后也是在 1 附近，不妨假设误差为，那么也可以估算出。这里的 k 都是指向量维度。

可以看出，的结果都有一个共性，那就是都可以写成，其中是我们对参数变化尺度的一个预判。乘性矩阵的可以直接取初始化的标准差，加性偏置或者向量可以直接简单地取，或者有其他特殊参数的再做特殊处理。

分离尺度

现在我们来看完整的更新量，根据式 (13)，有

其中是一个单位向量，控制更新方向，部分是一个衰减项，我们可以先不管它，所以更新量的模长由控制。

回到文章开头的第一个问题“学习率如何适应不同初始化和参数化？”，很明显，直观想法应该就是变化尺度大的参数每一步的更新量应该更大，或者直接简单地正比于变化尺度，而变化尺度我们刚才估计了，可以用来描述，所以我们认为应该有，其中是全局的初始学习率。反过来解得，代入式 (13) 得到

其中代表了每一步的相对更新幅度（全局学习率），这一步没啥推导空间了，一般取左右就行，如果任务简单也可以取到；在上一节已经做了估计，大概是，代表参数尺度，不同参数不一样，我们正是通过它把参数尺度显式地分离了出来，从而达到了自适应参数尺度的效果（更新量正比）。特别地，如果将上式的换成，那么就是 LAMB 优化器。

从这里也可以看出，如果的初始化均值不是 0（像向量），用替代是会有问题的，所以 LAMB 的做法是直接不对这些参数的更新量进行变换（即保留原来的更新规则）。

解析近似

其实目前的结果已经适合编程实现了，只是参数 p 不好调罢了。为了进一步看出参数 p 是怎么影响衰减函数的，我们可以进一步求出的解析近似！

在式 (16) 的两边乘以，然后两边开平方，得到

将指数的求和记为，那么上式就对应差分方程

此时衰减函数就是。为了求渐近近似，我们用导数代替差分（参考《差分方程的摄动法》[6]），得到

这是个简单的微分方程，可以解得（结合）

这就是衰减函数的显式解，表明超参数应该按照步数的平方反比衰减，具体代入式 (16) 后得到

这个显式解不但能让编程实现更方便，还使得 p 的含义更为清晰。比如我们希望学习率在 T 步后就降低为原来的一半，那么就有，从中解得

至于 T 应该是多少，这依赖于任务难度和数据量，也没有太大推导空间了。

文章小结

本文借鉴了 Amos 优化器的思路，推导了一些关于学习率和权重衰减率的结果 (21)，这些结果可以即插即用地应用到现有优化器中，能一定程度上简化调参难度。

参考文献

[1] https://arxiv.org/abs/2210.11693

[2] https://kexue.fm/archives/7180

[3] https://kexue.fm/archives/8620

[4] https://kexue.fm/archives/7180

[5] https://kexue.fm/archives/7076

[6] https://kexue.fm/archives/3889

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

权重衰减

关注 0

【简明书册】(随机)梯度方法的收敛定理手册，68页pdf

专知会员服务

39+阅读 · 2023年1月31日

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

专知会员服务

53+阅读 · 2023年1月28日

【ICML2022】张量卷积神经网络的统一权值初始化范式

专知会员服务

18+阅读 · 2022年6月8日

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

专知会员服务

26+阅读 · 2022年4月5日

【NeurIPS 2021】类比进化算法：设计统一的序列模型

专知会员服务

16+阅读 · 2021年10月30日

【ICLR2021】微分动态规划神经优化器

专知会员服务

16+阅读 · 2021年3月4日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

专知会员服务

29+阅读 · 2020年10月11日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

让AI自己调整超参数，谷歌大脑新优化器火了，自适应不同任务，83个任务训练加速比经典Adam更快

量子位

0+阅读 · 2022年11月24日

CVPR 2022 | 量化网络的反向求导拟合方法

PaperWeekly

0+阅读 · 2022年11月10日

生成扩散模型漫谈：一般框架之ODE篇

PaperWeekly

1+阅读 · 2022年9月1日

生成扩散模型漫谈：一般框架之SDE篇

PaperWeekly

0+阅读 · 2022年8月14日

新手炼丹经验总结

极市平台

1+阅读 · 2022年7月7日

当BERT-whitening引入超参数：总有一款适合你

PaperWeekly

0+阅读 · 2022年5月22日

听说Attention与Softmax更配哦～

PaperWeekly

0+阅读 · 2022年4月9日

输入梯度惩罚与参数梯度惩罚的一个不等式

PaperWeekly

0+阅读 · 2021年12月27日

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

干货｜EM算法原理总结

全球人工智能

17+阅读 · 2018年1月10日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于竞争差分析的单向交易策略

国家自然科学基金

0+阅读 · 2014年12月31日

前馈神经网络容错学习算法的设计与确定型收敛性研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于块的变分法图像处理理论模型及其数值方法

国家自然科学基金

0+阅读 · 2012年12月31日

具退化系数的发展型方程多参数反演问题的正则化理论和算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

在高维参数空间中集成电路性能分布分析方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

用多重假设检验方法来研究方差变点问题

国家自然科学基金

0+阅读 · 2009年12月31日

多示例多标记学习中的最优化方法及其应用

国家自然科学基金

1+阅读 · 2009年12月31日

基于Al结的超导量子比特的制备和宏观量子性质研究

国家自然科学基金

0+阅读 · 2009年12月31日

线性系统的多目标参数不敏感控制器设计

国家自然科学基金

0+阅读 · 2009年12月31日

Structured Pruning Adapters

Arxiv

0+阅读 · 2023年2月2日

Dynamic Ensemble of Low-fidelity Experts: Mitigating NAS "Cold-Start"

Arxiv

0+阅读 · 2023年2月2日

An algebraic algorithm for rank-2 ParaTuck-2 decomposition

Arxiv

0+阅读 · 2023年2月2日

Sample Complexity of Kernel-Based Q-Learning

Arxiv

0+阅读 · 2023年2月1日

DEIM vs. leverage scores for time-parallel construction of problem-adapted basis functions

Arxiv

0+阅读 · 2023年2月1日

Meta-Learning via Classifier(-free) Diffusion Guidance

Arxiv

0+阅读 · 2023年1月31日

ERA-Solver: Error-Robust Adams Solver for Fast Sampling of Diffusion Probabilistic Models

Arxiv

0+阅读 · 2023年1月31日

Scaling Properties of Deep Residual Networks

Arxiv

13+阅读 · 2021年5月25日

已删除

Arxiv

33+阅读 · 2020年3月23日

Bilinear Attention Networks

Arxiv

11+阅读 · 2018年5月21日

VIP会员