解决大模型超参调优的难题！微软和OpenAI提出Efficient Hyperparameter Tuning

会员服务 ·

解决大模型超参调优的难题！微软和OpenAI提出Efficient Hyperparameter Tuning

2022 年 4 月 2 日 极市平台

↑ 点击蓝字关注极市平台

作者丨于璠@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/489005236

编辑丨极市平台

极市导读

在大家面对大模型束手无策的尴尬境况，最近微软和OpenAI合作的新工作μTransfer为大模型的超参数调优提供了解决方案，本文简要介绍了该篇工作。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

超参数调优对深度学习的重要性不言而喻，很多深度学习算法工程师都自嘲是“调参侠”，但“调参侠”面对大模型也束手无策，因为大模型训练成本高昂，GPT-3训练一次的费用是460万美元，甚至在明知有bug的情况下都无法重新训练一遍，在这种情况下，能完成模型训练已经实属不易，更不仅要说进行超参数调优了。因此，以往大模型的训练可以说都是不完整的，缺少了“超参数调优”这一重要环节，然而，最近微软和OpenAI合作的新工作μTransfer为大模型的超参数调优提供了解决方案，如图1所示，即先在小模型上进行超参数调优，再迁移到大模型，下面将对该工作进行简单介绍，详细内容可参考论文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》。

论文链接：https://arxiv.org/pdf/2203.03466v1.pdf

代码链接：https://github.com/microsoft/mup

可能有人会有疑问，先在小模型调优超参数，再迁移到大模型，这个思路好像也不难，之前没有人试过吗？从论文中的分析来看，这个方法并不是总是奏效的，得先使用μP（Maximal Update Parametrization）方法初始化模型参数，该方法可参考作者的另一篇工作《Feature Learning in Infinite-Width Neural Networks》。如图2所示，当在Transformer模型中增加模型宽度时，如果不使用μP，不同宽度的模型的最优超参并不一致，更宽的模型并不总是比窄模型效果更好，而使用μP，不同宽度模型的最优学习率基本一致，宽模型总是比窄模型效果好。

图2 用Adam训练的不同宽度Transformer模型的训练损失与学习率的关系

那使用 μTransfer 时可以使用那些扩大模型规模的方法呢？μTransfer 又对哪些超参数有效？作者也在论文中进行了总结，如图3所示。其中带*号的只在Transformers上进行了实验验证，而其他的都有理论证明。

图3 μTransfer 在增加通过哪些超参数增加模型规模时，在哪些超参数上有效，在哪些超参数上无效

作者将 μTransfer 的技术收益总结为以下5点：

1. 更好的效果。作者强调 μTransfer不仅提高了超参数调优的效率，而且如图1所示，即使都使用了最优的超参数，预训练的效果也更好，作者使用 μTransfer 训练的BERT-large 和 GPT-3 都超过了发布版本的模型，作者将原因归结为 μP 可以避免标准参数化的 Transformer 随着宽度增加 logits 和 attention logits 会blow up 而 word embedding 却不会 blow up 的问题，如图4所示，因此最优的超参数可以使得word embedding得到更好的训练；