「八卦炉」炼丹规模直逼人脑！清华、阿里等搞了个174万亿参数大模型

会员服务 ·

「八卦炉」炼丹规模直逼人脑！清华、阿里等搞了个174万亿参数大模型

2022 年 3 月 12 日 新智元

新智元报道

编辑：David 好困

【新智元导读】手头只有鸡蛋和葱花，如何做出满汉全席？

只要不差钱，人人都爱大模型！

这不，Meta就计划把CV、NLP、语音识别等技术所需的模型都做到「数万亿」的参数量。

年初的时候就联合英伟达推出了一个全新的超算——「人工智能研究超级集群」（ AI Research SuperCluster，RSC）。

既然Meta都这么搞了，是不是拿超算「炼丹」很好用？

答案是，并不……尤其是当你手里只有14纳米架构的芯片时。

为此，清华大学、阿里达摩院等机构的研究人员提出一种全新的思路——「八卦炉」（BaGuaLu）。

这也是第一个针对在超算，也就是新一代「神威」上，训练参数量达到「百万亿级」模型的工作。

论文链接： https://tinyurl.com/bdzc4d2j

「八卦炉」通过结合特定硬件的节点内优化和混合并行策略，在前所未有的大型模型上实现了体面的性能和可扩展性。

结果显示，「八卦炉」可以训练14.5万亿个参数的模型，使用混合精度的性能超过1 EFLOPS，并且有能力训练174万亿个参数的模型。

显然，这已经相当于人脑中突触的数量了。

简化的模型计算过程

有趣的是，团队怕老外看不懂「谐音梗」，贴心地在论文的注脚中写道：「八卦炉是中国古代神话中的一种神奇炉子，可以生产药物。」

看来，「炼丹」这个词着实是不好翻译啊。

实现方法和结果

硬件的节点内优化

这部分主要是让内存带宽可以接近理论值。

以矩阵乘法为例，单精度和半精度的GEMM，可以分别获得了89.2%和85.8%的峰值性能。

使用DMA和RMA从CPE访问内存

为了将「八卦炉」应用到整个超算系统，研究团队设计了一个高效的混合策略，包括混合并行策略MoDa、负载平衡策略SWIPE和内存高效优化器ParO。

其中，混合MoE并行和数据并行策略(MoDa) 可以将模型训练扩展到大脑规模，并具有良好的计算效率。

SWIPE则通过将输入项目重新分配给专家，并严格限制每个专家必须接受同等数量的输入项目，从而有效地区分负载不平衡。

对于每个参数，系统必须存储参数本身、其梯度和优化器中的变量，这对内存来说是一个巨大的挑战。

而基于分区的并行优化器(ParO) 用Reduce-Scatter和All-Gather取代了数据并行组中的All-Reduce，将优化状态在工作者之间进行分割。

由于在每个等级上只保存了元数据和优化器数据，使得从优化器中恢复模型参数的完整副本成为可能。

混合精度训练

SW26010-Pro支持例如FP64、FP32、FP16和BF16等不同类型的浮点计算。其中，FP64和FP32的吞吐量为14.03 TFLOPS，FP16和BF16的吞吐量为55.30 TFLOPS。因此，用混合精度进行训练会带来明显的性能改善。

然而，现有的方法大多数现有的工作是基于GPU的，并没有在这种大规模的模型训练上得到验证，直接套在「神威」上显然是不现实的。例如，NVIDIA APEX的训练有四个优化级别：

O0：FP32训练。

O1：在诸如GEMM或卷积的运算中使用FP16。

O2：将权重和输入数据丢给FP16，并保持一个FP32主权重用于优化。

O3：FP16训练。

通常，在NVIDIA GPU上训练常规模型时，O1和O2级训练可以收敛到与O0相同的损失。然而，在「神威」上直接使用APEX方法时，O1和O2级优化都不起作用。

因此，研究团队将所有的层分为不同的类别。针对每个类别进行调整优化水平，并选择最佳的优化级别，这样就可以同时获得高性能和快速收敛。

「八卦炉」上的混合精度训练，在嵌入层使用O0，在注意力层使用O1，在FFN（前馈）层使用O2

为了保证数值的稳定性，避免可能的溢出和下溢。部分特定的运算符，如还原、exp、sqrt、gelu、softmax和layer_norm，则使用FP64运算。

在All-Reduce通信中，则采用了在线平均算法，而不是简单的求和除法算法来提高数值稳定性。

结果评估

研究团队评估了MoDa-1.93T、MoDa14.5T和MoDa-174T等模型的单精度和混合精度的性能。

MoDa-1.93T在单精度和混合精度中分别达到647 PFLOPS和1.180 EFLOPS。

MoDa-14.5T在单精度和混合精度方面分别达到了525 PFLOPS和1.002 EFLOPS。

MoDa-174T模型是所提出的模型中最大的一个，有173.9万亿个参数。训练过程中，在单精度和混合精度下分别达到198PFLOPS和230PFLOPS。

14纳米芯片，也能造E级超算

承载这个「人脑规模」模型计算任务的，是新一代的「太湖之光」神威超算。

此次新一代超算使用的处理器是2016年老一代超算的SW26010处理器的扩展版本：SW26010 Pro。

260核的SW26010处理器使用中芯国际28纳米工艺蚀刻而成，即使在当时也算不上是尖端芯片。SW26010-Pro处理器使用14纳米工艺，同样称不上尖端。

早在2021年2月，外界广泛猜测如何使用14纳米芯片建造E级超算系统，当时认为，如果要让发热量保持在低水平，同时保持其处理器的时钟速度不变，将芯片上的计算单元数量增加一倍，将矢量宽度增加到512位，并将机柜数量增加一倍，以达到FP64精度下的E级峰值理论性能。

事实证明，SW26010 Pro处理器将计算单元增加了50%，将矢量宽度提高到512位，也许还提高了时钟速度，并提高了节点和机柜的数量，使其达到E级性能。

SW26010-Pro的计算引擎架构

处理器中有六块核心组，每个核心组都有一个用于管理Linux线程管理处理元件（MPE）和一个由计算处理元件（CPE）组成的8乘8网格，有256 KB的二级缓存。

每个CPE有4个逻辑块，在一组单元上可以支持FP64和FP32，在另一组单元上支持FP16和BF16。SW26010-Pro中的每个核心组都有一个DDR4内存控制器和16GB内存，内存带宽为51.4GB/秒，整个设备有96GB的主内存和307.2GB/秒的带宽。

6个CPE通过环形互连连接，并有2个网络接口，使用专有的互连方式将它们与外部连接。

SW26010-Pro在FP64或FP32精度下的额定速度为14.03 petaflops，在BF16或FP16精度下为55.3 petaflops。

新超算系统一个机柜里有1024个节点（四个超级节点），总共40个机柜，从而达到125.4 petaflops的峰值理论性能。

据了解，SW26010-Pro处理器与SW26010的插槽是兼容的，所以系统设置应该是一样的。经测试，新系统的最大配置访问了107520个节点（每个节点搭载一个SW26010-Pro），总共有4193万个核心。这相当于105个机柜，是前一代的2.6倍。

新一代「神威」的架构

SW26010的额定峰值为3.06 teraflops，运行频率为1.45GHz。

做个计算，如果芯片制程从28纳米缩小到14纳米，然后将核心数量增加50%，再将带宽加倍，达到512位，保持时钟速度不变，这样下来，系统算力近似增加200%，达到9.2 teraflops。

但实际上SW26010-Pro芯片可提供14.03 teraflops的性能，按照这个结果推算，时钟速度提高了52.7%至2.22GHz，才能达到这个水平。

总体而言，在「八卦炉」上测试的105个机柜系统及其107250个SW26010-Pro处理器的峰值理论性能为1.51 exaflops。

未来OceanLight系统可能扩展到160个机柜，即163840个节点，峰值FP64和FP32性能略低于2.3 exaflops。

能否超越美国？

如果真的实现了160机柜的规模，该系统就可以超越今天美国橡树岭国家实验室正在优化中的 1.5 exaflops 「Frontier」的性能，以及2 exaflops 的「Aurora」超级计算机的峰值理论性能。

甚至可能比预计2023年进入劳伦斯利弗莫尔国家实验室的「El Capitan」超级计算机还要强，它的理论峰值性能在2.2~2.3 exaflops 左右。

诚然，采用相对落后制程的一个不可避免的缺点就是发热问题。SW26010-Pro芯片可能会很热，会增加电力和散热成本。但如果中芯国际能够在14纳米工艺上获得良好的良率，那么制造成本的降低可以在一定程度上弥补这部分费用。

比起散热和能耗成本问题，对于中国来说，拥有本土自产的零部件比解决能效问题更重要得多。

目前，中国的E级超算已经诞生一年了，美国至少现在还没有。

由于芯片制程上的优势，美国的E级超算会更节能，而且大概率在Frontier 和El Capitan和Aurora中诞生。但一切总还要等到诞生之后再说。

从某种意义上说，这种竞争会推动计算架构的进步。

话说回来，美国这几台怪兽级超算的问世，也就在不远的未来了。对面的「大招」如何放，我们拭目以待。

通信作者

陈文光

清华大学计算机系教授，主要研究领域为操作系统、程序设计语言与并行计算，国家自然科学基金杰出青年基金获得者。获国家科技进步二等奖一次，部级科技一等奖两次。

现为中国计算机学会杰出会员和杰出讲者，副秘书长，青年科技论坛荣誉委员；ACM中国理事会主席，ACM中国操作系统分会ChinaSys主席，ACM通讯中文版主编。

翟季冬

清华大学计算机科学与技术系副教授。曾任斯坦福大学客座教授（2015-2016），2013年MSRA（微软亚洲研究院）访问学者。现任ACM SIGHPC中国区秘书长。

他目前的研究兴趣包括并行计算、编译器、编程语言和性能评估。

他是清华学生集群团队的顾问。他带领的团队在SC、ISC 和 ASC的学生超级计算挑战中获得了11项国际冠军。

刘鑫

之江实验室智能超算研究中心研究员。国家并行计算机工程技术研究中心研究员，博士生导师，神威系列智能计算机常务副总设计师，长期从事超级计算机体系结构、并行算法及应用支撑软件的研究工作。

先后主持「神威·蓝光」、「神威·太湖之光」、神威E级原型机应用系统研制工作，负责核高基「面向数据中心（云平台）和集群计算的智能处理单元」软件系统研制，在科学计算和人工智能领域的并行算法、应用支撑软件和软硬件协同设计工作中成效显著。

带领团队研发的神威量子模拟器，入围2021年度「戈登·贝尔奖」。曾获省部级科技进步一等奖一项、二等奖三项、「清华大学-浪潮集团计算地球青年人才」，「CCF-IEEE CS青年科学家奖」。

杨红霞

美国杜克大学博士学位，现任阿里巴巴资深算法专家，带领团队开发基于计算平台和搜索推荐的智能算法，稳定的支持了阿里巴巴搜索、广告等30几个核心BU和其业务场景。

在顶级统计和机器学习国际学术期刊会议发表论文50余篇，美国专利9项，任职Applied Stochastic Models in Business and Industry副主编，International Statistical Institute理事等。

唐杰

清华大学计算机科学与技术系教授。ACM Fellow、IEEE Fellow。

研究兴趣包括人工智能、数据挖掘、社交网络、机器学习和知识图谱，重点是为信息和社交网络挖掘设计新算法。

曾获SIGKDD时间检验奖、第二届国家科学技术奖、 NSFC杰出青年学者、英国皇家学会-牛顿高级奖学金和SIGKDD服务奖。

参考资料：

https://www.theregister.com/2022/03/11/china_exascale_sunway_ai/

https://www.nextplatform.com/2021/10/26/china-has-already-reached-exascale-on-two-separate-systems/

https://www.nextplatform.com/2022/03/11/pondering-the-cpu-inside-chinas-sunway-oceanlight-supercomputer/

登录查看更多

相关内容

大模型

关注 213

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

专知会员服务

26+阅读 · 2022年4月5日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

要绿色AI而非红色深度大能耗模型？字节&UCSB李磊等发布《绿色深度学习》61页pdf阐述碳中和时代下深度学习发展之路

专知会员服务

37+阅读 · 2021年11月11日

【NeurIPS2021】未见深度架构参数预测

专知会员服务

10+阅读 · 2021年10月27日

GNN4Rec-3：图神经网络在阿里推荐中的应用

专知会员服务

25+阅读 · 2021年8月3日

千亿参数！阿里清华联合推理史上最大中文多模态预训练器M6！

专知会员服务

42+阅读 · 2021年3月3日

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

近期必读的12篇KDD 2019【图神经网络（GNN）】相关论文

专知会员服务

63+阅读 · 2020年1月10日

众筹超算直播训练1760亿参数AI大模型，九百工程师搞开源

机器之心

0+阅读 · 2022年3月19日

安全隐患：神经网络可以隐藏恶意软件

THU数据派

0+阅读 · 2022年3月16日

BaGuaLu: 基于国产超算的百万亿参数超大预训练模型训练方法 | 论文荐读

学术头条

2+阅读 · 2022年3月11日

Meta揭幕全球最快AI超算：目标一天之内训练万亿参数大模型

机器之心

0+阅读 · 2022年1月25日

90.35%准确率！谷歌刚刚开源最大视觉模型V-MoE的全部代码！150亿参数！

CVer

0+阅读 · 2022年1月21日

2天训练出15亿参数大模型，国产开源项目力克英伟达Megatron-LM，来自LAMB作者团队

量子位

0+阅读 · 2022年1月20日

150亿参数，谷歌开源了史上最大视觉模型V-MoE的全部代码

极市平台

0+阅读 · 2022年1月16日

英伟达PyTorch优化神器TensorRT重磅更新！10亿参数大模型实时运行，GPT推理加速21倍

新智元

0+阅读 · 2021年12月3日

5300亿！巨型语言模型参数每年暴涨10倍，新「摩尔定律」要来了？

新智元

0+阅读 · 2021年10月27日

聊一聊“超大模型”

夕小瑶的卖萌屋

1+阅读 · 2021年7月6日

微小通道碳氢燃料多时间尺度化学非平衡流场协同优化研究

国家自然科学基金

0+阅读 · 2014年12月31日

系统辨识算法复杂性、收敛性、计算效率研究

国家自然科学基金

1+阅读 · 2014年12月31日

多参数传热反问题的RBF-MLPG方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

深度学习算法可重构加速器关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向超大规模有限元的线性方程组多级平衡并行算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

异构GPU集群混合粒度任务协同调度与动态均衡机制研究

国家自然科学基金

2+阅读 · 2012年12月31日

分布式结构健康监测数据同步采集仪器的研制

国家自然科学基金

0+阅读 · 2012年12月31日

大规模计算网络并行任务调度模型及其参数方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

图的若干参数及算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

网状结构膜计算模型研究

国家自然科学基金

0+阅读 · 2010年12月31日

Reinforced Structured State-Evolution for Vision-Language Navigation

Arxiv

0+阅读 · 2022年4月20日

FastDOG: Fast Discrete Optimization on GPU

Arxiv

0+阅读 · 2022年4月19日

StableMoE: Stable Routing Strategy for Mixture of Experts

Arxiv

0+阅读 · 2022年4月18日

UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles for Detecting Patronizing and Condescending Language

Arxiv

0+阅读 · 2022年4月18日

Accurate ADMET Prediction with XGBoost

Arxiv

0+阅读 · 2022年4月15日

LaMemo: Language Modeling with Look-Ahead Memory

Arxiv

0+阅读 · 2022年4月15日

Identifying and Measuring Token-Level Sentiment Bias in Pre-trained Language Models with Prompts

Arxiv

0+阅读 · 2022年4月15日

A* shortest string decoding for non-idempotent semirings

Arxiv

0+阅读 · 2022年4月14日

Fine-Grained Neural Network Explanation by Identifying Input Features with Predictive Information

Arxiv

10+阅读 · 2021年10月4日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员