解决大模型超参调优的难题!微软和OpenAI提出Efficient Hyperparameter Tuning

2022 年 4 月 2 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨于璠@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/489005236
编辑丨极市平台

极市导读

 

在大家面对大模型束手无策的尴尬境况,最近微软和OpenAI合作的新工作μTransfer为大模型的超参数调优提供了解决方案,本文简要介绍了该篇工作。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

超参数调优对深度学习的重要性不言而喻,很多深度学习算法工程师都自嘲是“调参侠”,但“调参侠”面对大模型也束手无策,因为大模型训练成本高昂,GPT-3训练一次的费用是460万美元,甚至在明知有bug的情况下都无法重新训练一遍,在这种情况下,能完成模型训练已经实属不易,更不仅要说进行超参数调优了。因此,以往大模型的训练可以说都是不完整的,缺少了“超参数调优”这一重要环节,然而,最近微软和OpenAI合作的新工作μTransfer为大模型的超参数调优提供了解决方案,如图1所示,即先在小模型上进行超参数调优,再迁移到大模型,下面将对该工作进行简单介绍,详细内容可参考论文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》。

论文链接:https://arxiv.org/pdf/2203.03466v1.pdf

代码链接:https://github.com/microsoft/mup

图1 μTransfer算法流程

可能有人会有疑问,先在小模型调优超参数,再迁移到大模型,这个思路好像也不难,之前没有人试过吗?从论文中的分析来看,这个方法并不是总是奏效的,得先使用μP(Maximal Update Parametrization)方法初始化模型参数,该方法可参考作者的另一篇工作《Feature Learning in Infinite-Width Neural Networks》。如图2所示,当在Transformer模型中增加模型宽度时,如果不使用μP,不同宽度的模型的最优超参并不一致,更宽的模型并不总是比窄模型效果更好,而使用μP,不同宽度模型的最优学习率基本一致,宽模型总是比窄模型效果好。

图2 用Adam训练的不同宽度Transformer模型的训练损失与学习率的关系

那使用 μTransfer 时可以使用那些扩大模型规模的方法呢?μTransfer 又对哪些超参数有效?作者也在论文中进行了总结,如图3所示。其中带*号的只在Transformers上进行了实验验证,而其他的都有理论证明。

图3 μTransfer 在增加通过哪些超参数增加模型规模时,在哪些超参数上有效,在哪些超参数上无效

作者将 μTransfer 的技术收益总结为以下5点:

1. 更好的效果。作者强调 μTransfer不仅提高了超参数调优的效率,而且如图1所示,即使都使用了最优的超参数,预训练的效果也更好,作者使用 μTransfer 训练的BERT-large 和 GPT-3 都超过了发布版本的模型,作者将原因归结为 μP 可以避免标准参数化的 Transformer 随着宽度增加 logits 和 attention logits 会blow up 而 word embedding 却不会 blow up 的问题, 如图4所示,因此最优的超参数可以使得word embedding得到更好的训练;

图4 随着宽度的增加,在训练了 1 step 之后, 使用标准参数化的Transformer的 logits 和 attention logits 会 blow up,而 word embedding不会 blow up, 使用 μP 的Transformer不会有这个问题

2. 加速大模型的超参数调优。在 BERT-large 上进行 μTransfer 的开销相当于预训练一次 BERT-large,在 6.7B GPT-3 上进行 μTransfer 的开销相当于预训练一次 6.7B GPT-3开销的 7%;

3. 对整个模型家族只需要进行一次调参;

4. 更好地利用计算资源。因为超参数调优是在小模型上进行的,所以通常不需要用到集群,这样更有利于计算资源的调度和并行;与之相比,AutoML等技术也能加速超参数调参的过程,但因为调参过程中的模型规模不变,仍然需要用到计算集群;

5. 从模型研究到 scaling up 的无痛迁移。很多模型创新都是在小模型上进行的,但在迁移到大模型时发现收效甚微,这也有可能是没有进行很好的超参数调优导致的,使用 μTransfer 可以实现小模型到大模型超参的无痛迁移。

作者开源了一个可以通过 pip 安装的包,叫 mup,安装和使用都较简单,有兴趣的朋友可以进行试用,github链接为 https://github.com/microsoft/mup

这篇工作是近来在大模型领域不多的创新型工作,从理论推导到实验都比较扎实,让人眼前一亮,但该方法的理论证明仅支持通过宽度增加模型规模,深度等维度都是通过实验验证的,希望在后续其他研究人员对 mup 的使用中,可以进一步证明该方法的泛化性和在不同模型上的适用性。


公众号后台回复“数据集”获取100+深度学习数据集下载~

△点击卡片关注极市平台,获取 最新CV干货
极市干货
数据集资源汇总: 10个开源工业检测数据集汇总 21个深度学习开源数据集分类汇总
算法trick 目标检测比赛中的tricks集锦 从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述: 一文弄懂各种loss function 工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


觉得有用麻烦给个在看啦~   
登录查看更多
3

相关内容

在贝叶斯统计中,超参数是先验分布的参数; 该术语用于将它们与所分析的基础系统的模型参数区分开。
NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
11+阅读 · 2021年12月9日
专知会员服务
24+阅读 · 2021年7月11日
专知会员服务
44+阅读 · 2020年3月6日
单个GPU也能训练GPT-3!快来看看HP调优新范式吧!
大数据文摘
0+阅读 · 2022年4月10日
Parameter-Efficient Fine-tuning 相关工作梳理
PaperWeekly
1+阅读 · 2022年3月19日
迁移Prompt–解决Prompt Tuning三大问题!
夕小瑶的卖萌屋
8+阅读 · 2021年12月15日
Prompt tuning新工作,五个参数解决下游任务 fine-tuning
夕小瑶的卖萌屋
2+阅读 · 2021年12月2日
聊一聊“超大模型”
夕小瑶的卖萌屋
1+阅读 · 2021年7月6日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
35+阅读 · 2022年3月14日
VIP会员
相关资讯
单个GPU也能训练GPT-3!快来看看HP调优新范式吧!
大数据文摘
0+阅读 · 2022年4月10日
Parameter-Efficient Fine-tuning 相关工作梳理
PaperWeekly
1+阅读 · 2022年3月19日
迁移Prompt–解决Prompt Tuning三大问题!
夕小瑶的卖萌屋
8+阅读 · 2021年12月15日
Prompt tuning新工作,五个参数解决下游任务 fine-tuning
夕小瑶的卖萌屋
2+阅读 · 2021年12月2日
聊一聊“超大模型”
夕小瑶的卖萌屋
1+阅读 · 2021年7月6日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员