2天训练出15亿参数大模型，国产开源项目力克英伟达Megatron-LM，来自LAMB作者团队

会员服务 ·

2天训练出15亿参数大模型，国产开源项目力克英伟达Megatron-LM，来自LAMB作者团队

2022 年 1 月 20 日 量子位

鱼羊明敏发自凹非寺
量子位 | 公众号 QbitAI

当今AI之势，影响纵深发展的矛盾是什么？

一方面，大模型风头正劲，效果惊艳，人人都想试试。但另一方面，硬件基础上动不动就是上万张GPU的大规模集群在日夜燃烧，钞能力劝退。

所以如果告诉你，现在只用一半数量的GPU，也能完成同样的GPT-3训练呢？

你会觉得关键钥匙是什么？

不卖关子了。实现如此提升的，是一个名为Colossal-AI的GitHub开源项目。

而且该项目开源不久，就迅速登上了Python方向的热榜世界第一。

↑GitHub地址：https://github.com/hpcaitech/ColossalAI

不仅能加速GPT-3，对于GPT-2、ViT、BERT等多种模型，Colossal-AI的表现也都非常nice：

比如半小时左右就能预训练一遍ViT-Base/32，2天能训完15亿参数GPT模型、5天可训完83亿参数GPT模型。

与业内主流的AI并行系统——英伟达Megatron-LM相比，在同样使用512块GPU训练GPT-2模型时，Colossal-AI的加速比是其2倍。而在训练GPT-3时，更是可以节省近千万元的训练费用。

此外在训练GPT-2时，显存消耗甚至能控制在Megatron-LM的十分之一以下。

Colossal-AI究竟是如何做到的？

老规矩，我们从论文扒起。

高效6维并行方法

简单来说，Colossal-AI就是一个整合了多种并行方法的系统，提供的功能包括多维并行、大规模优化器、自适应任务调度、消除冗余内存等。

首先来看多维并行。

所谓“多维”是指，目前主流的分布式并行方案往往使用多种并行方法。

比如英伟达的Megatron-LM使用了3种方法：数据并行、流水并行和张量并行。因此这种模式也被称为三维并行。微软的DeepSpeed调用Megatron-LM作为并行基础。

而Colossal-AI能将系统的并行维度，一下子拉升到6维——

在兼容数据并行、流水并行的基础上，基于该项目团队自研的2维/2.5维/3维张量并行方法，以及序列并行实现。

其中，高维张量并行正是Colossal-AI提升大模型显存利用率和通信效率的关键所在。

其实张量并行并不新奇，只是过去我们常见的张量并行更多都是基于一维的。

它的原理是将模型层内的权重参数按行或列切分到不同的处理器上，利用分块矩阵乘法，将一个运算分布到多个处理器上同时进行。

比如英伟达的Megatron-LM就是一个典型的例子。

但这种并行方式存在一定弊端。

比如，每个处理器仍需要存储整个中间激活，使得在处理大模型时会浪费大量显存空间。

另一方面，这种单线方法还会导致每个处理器都需要与其他所有处理器进行通信。

这意味着假设有100个GPU的话，每个GPU都需要与其他99个GPU通信，每次计算需要通信的次数就高达9900次。

但如果将张量并行的维度扩展到2维，单次计算量能立刻下降一个量级。

因为每个GPU只需与自己同行或同列的GPU通信即可。

同样还是100个GPU的情况，每个GPU需要通信的GPU个数就能降到9个，单次计算仅需900次。

实际上在此基础上，Colossal-AI还包含2.5维、3维张量并行方法，可以进一步降低传输成本。

相较于2维并行方法，2.5维并行方法可提升1.45倍效率，3维方法可提升1.57倍。

针对大图片、视频、长文本、长时间医疗监控等数据，Colossal-AI还使用了序列并行的方法，这种方法能突破原有机器能力限制，直接处理长序列数据。

值得一提的是，Colossal-AI的API接口是可以定制的，这使得它可以便捷添加新的并行维度。

其次，大规模优化器也是Colossal-AI的亮点。

上面我们也提到了，在分布式并行系统中会使用多种并行方法，数据并行则是另一种常见方法。

这种方法的原理不难理解，就是把训练数据划分成若干份，让不同的机器运算不同的数据，然后通过一个参数服务器 （Paremeter Server）收集目标数据。

由此可以大幅提升AI模型训练过程中的批量大小，加速训练过程。

不过大批量训练有个“通病”，就是会产生泛化误差 （Generalization Gap），导致网络泛化能力下降，进而导致AI模型准确度下降。

所以，Colossal-AI在系统中使用了自研的LAMB、LARS等大规模优化器。在保证训练精度的情况下，还将批大小从512扩展到65536。

其中，LARS优化器是通过逐层调整学习率，来减少因为学习率导致的无法收敛情况。

LAMB优化器则是在LARS的基础上，将逐层调整学习率的思想应用到自适应梯度上。

由此，LAMB能够很好解决此前LARS在BERT训练中存在差异的问题，最大批量达到了64K。

此前，LAMB优化器曾成功将预训练一遍BERT的时间，从原本的三天三夜缩短到一个多小时。

第三方面，Colossal-AI使用自适应可扩展调度器来高效处理任务。

与现有常见的任务调度器不同，Colossal-AI不是静态地通过GPU个数来判断任务规模，而是根据批大小来动态、自动管理每个任务.

通过演化算法，该任务调度器还能不断优化调度决策，更大程度提升GPU利用率。

评估结果表明，与当前最先进的方法相比，该方法在平均JCT （job completion time）上能够缩短45.6%的时间，优于现有的深度学习任务调度算法。

此外，这种自适应可扩展调度器还能通过NCCL网络通信实现高效的任务迁移。

最后，消除冗余内存也是加速AI训练的一种解决思路。

在这方面，Colossal-AI使用了zero redundancy optimizer技术（简称ZeRO）。

这种方法主要通过切分优化器状态、梯度、模型参数，使GPU仅保存当前计算所需的部分，从而来消除数据并行、模型并行中存在的内存冗余。

尤其是在部署模型推理时，通过zero offload可以将模型卸载到CPU内存或硬盘，仅使用少量GPU资源，即可实现低成本部署前沿AI大模型。

综上不难看出，在技术层面Colossal-AI的加速效果非常明显。

而在应用层面，Colossal-AI的设计也顾及了能耗问题和易用性两个维度。

考虑到数据移动会是能耗的主要来源，Colossal-AI在不增加计算量的情况下尽可能减少数据移动量，以此来降低能耗。

另一方面，作为一个开源给所有人使用的系统，Colossal-AI的使用门槛不高，即便是没有学习过分布式系统的人也能上手操作。

同时，只需要极少量的代码改动，Colossal-AI就能将已有的单机代码快速扩展到并行计算集群上。

背后团队：LAMB优化器作者尤洋领衔

看到这里，是不是觉得Colossal-AI确实值得标星关注一发？

实际上，这一国产项目背后的研发团队来头不小。

领衔者，正是LAMB优化器的提出者尤洋。

在谷歌实习期间，正是凭借LAMB，尤洋曾打破BERT预训练世界纪录。

据英伟达官方GitHub显示，LAMB比Adam优化器快出整整72倍。微软的DeepSpeed也采用了LAMB方法。

说回到尤洋本人，他曾以第一名的成绩保送清华计算机系硕士研究生，后赴加州大学伯克利分校攻读CS博士学位。

2020年博士毕业后，他加入新加坡国立大学计算机系，并于2021年1月成为校长青年教授（Presidential Young Professor）。

同样是在2021年，他还获得了IEEE-CS超算杰出新人奖。该奖项每年在全球范围内表彰不超过3人，仅授予在博士毕业5年之内，已在高性能计算领域做出有影响力的卓越贡献，并且可以为高性能计算的发展做出长期贡献的优秀青年学者。

与此同时，尤洋回国创办潞晨科技——一家主营业务为分布式软件系统、大规模人工智能平台以及企业级云计算解决方案的AI初创公司。

其核心团队成员来自加州大学伯克利分校、斯坦福大学、清华大学、北京大学、新加坡国立大学、新加坡南洋理工大学等国内外知名高校，在高性能计算、人工智能、分布式系统方面有十余年的技术积累，并已在国际顶级学术刊物/会议上发表论文30余篇。

目前，潞晨科技已拿下创新工场和真格基金合投的超千万元种子轮融资。

传送门

有关Colossal-AI，今天就先介绍到这里。

最后，附上传送门，感兴趣的小伙伴，自行取用~

GitHub地址：https://github.com/hpcaitech/ColossalAI

参考链接：
https://medium.com/@hpcaitech/efficient-and-easy-training-of-large-ai-models-introducing-colossal-ai-ab571176d3ed

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

大模型

关注 215

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

专知会员服务

50+阅读 · 2022年4月8日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【ICML2021】无训练神经架构搜索

专知会员服务

20+阅读 · 2021年9月16日

【SIGIR2021】ScaleFreeCTR：超大规模Embedding推荐模型分布式训练系统

专知会员服务

28+阅读 · 2021年4月26日

千亿参数！阿里清华联合推理史上最大中文多模态预训练器M6！

专知会员服务

42+阅读 · 2021年3月3日

【Google】梯度下降，48页ppt

专知会员服务

81+阅读 · 2020年12月5日

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

专知会员服务

31+阅读 · 2020年4月6日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

霸榜GitHub热门第一多日后，Colossal-AI正式版发布

量子位

1+阅读 · 2022年4月6日

6144块TPU，5400亿参数，会改bug、解读笑话，谷歌刚刚用Pathways训练了一个大模型

机器之心

1+阅读 · 2022年4月5日

语言模型参数越多越好？DeepMind用700亿打败自家2800亿，训练优化出「小」模型

机器之心

0+阅读 · 2022年4月3日

众筹超算直播训练1760亿参数AI大模型，九百工程师搞开源

THU数据派

0+阅读 · 2022年3月22日

单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移” | 已开源

量子位

0+阅读 · 2022年3月13日

90.35%准确率！谷歌刚刚开源最大视觉模型V-MoE的全部代码！150亿参数！

CVer

0+阅读 · 2022年1月21日

128张GPU炼出中国版AlphaFold2：训练代码全开源，打开浏览器就可体验，北大元培系AI公司打造

量子位

0+阅读 · 2021年12月13日

炼个BERT别人花几分钟你花了快1天？谷歌：我这是4810亿参数的巨型BERT

量子位

0+阅读 · 2021年12月3日

聊一聊“超大模型”

夕小瑶的卖萌屋

1+阅读 · 2021年7月6日

MindSpore开源框架加持，如何「炼出」首个千亿参数、TB级内存的中文预训练语言模型？

机器之心

2+阅读 · 2021年4月26日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

支持软件定义的可变带宽光网络节点关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

双网络水凝胶纤维的增韧机理和纺丝工艺研究

国家自然科学基金

0+阅读 · 2013年12月31日

云仿真中的计算资源分配方法研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于GPU的可控源电磁三维各向异性储层参数反演

国家自然科学基金

0+阅读 · 2012年12月31日

探空温度传感器太阳辐射误差的计算流体力学分析与微型化设计研究

国家自然科学基金

0+阅读 · 2012年12月31日

超大规模集成电路布局的ell-1模优化模型及其算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向混合体系结构的先进并行算法研究

国家自然科学基金

1+阅读 · 2009年12月31日

计算力学的可信性问题及其量化模型研究

国家自然科学基金

0+阅读 · 2008年12月31日

LIGHTYEAR: Using Modularity to Scale BGP Control Plane Verification

Arxiv

0+阅读 · 2022年4月20日

BigDL 2.0: Seamless Scaling of AI Pipelines from Laptops to Distributed Cluster

Arxiv

0+阅读 · 2022年4月19日

Integrated and Adaptive Guidance and Control for Endoatmospheric Missiles via Reinforcement Learning

Arxiv

0+阅读 · 2022年4月18日

Experimental twin-field quantum key distribution with flawed and correlated sources

Arxiv

0+阅读 · 2022年4月18日

Does Momentum Help? A Sample Complexity Analysis

Arxiv

0+阅读 · 2022年4月17日

WikiOmnia: generative QA corpus on the whole Russian Wikipedia

Arxiv

0+阅读 · 2022年4月17日

Reducing the Depth of Quantum FLT-Based Inversion Circuit

Arxiv

0+阅读 · 2022年4月16日

Twin-width can be exponential in treewidth

Arxiv

0+阅读 · 2022年4月15日

SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance

Arxiv

13+阅读 · 2021年3月10日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

10+阅读 · 2018年4月29日

VIP会员