AMD将成全球首个E级超算供应商?美国Frontier超算全AMD架构,超千万GPU核心

2022 年 4 月 4 日 新智元



  新智元报道  

编辑:LRS

【新智元导读】最近几年E级超算的呼声越来越高,但始终还没有哪个国家推出百亿亿次超算。美国Frontier超算近期开启公开测试,采用全AMD的架构,含超千万GPU核心,美国能全球首发E级超算吗?


超算排行榜,明年可能要迎来大变化!

 

美国橡树岭领先计算设施(OLCF)项目最近发布一条新消息,计算设施的测试平台系统已经成功启动,并有代码正在Crusher上运行测试。 

 

2019年时,美国能源部宣布投资6亿美元打造一台名为Frontier的超级计算机,以AMD处理器+AMD加速卡的架构进行搭建,预期计算能力将是Summit系统的7倍,并计划在2021年上线。

 

 

Crusher就是Frontier的一部分,可以看作是Frontier超算的「缩小版本」,科学家目前可以通过Crusher访问Frontier。

 

Crusher拥有和Frontier完全相同的计算架构,但只包含1.5个机柜,总计128+64=192个计算节点,总面积不过44平方英尺(约4平米)。和2013年上线的美国泰坦超算相比,占地面积仅为泰坦的百分之一,性能却更强,具体算力官方没有透露。

 

 

目前正在运行的4个科学项目已经成功通过Crusher在Frontier架构上完成优化,包括癌症分布学习环境(CANDLE)项目、并行架构上计算流体动力学(Cholla)项目、局部自洽多重散射(LSMS)项目、橡树岭的核电耦合集群(NuCCOR)项目。

 

由于Frontier进度不及预期,2021年底才开展安装工作,所以Frontier系统的实际上线时间可能要等到2023年1月1号。

 

根据官方文档来看,每个Crusher计算节点都配备了AMD专门优化过的第三代EPYC 7A53 64核心处理器CPU,每个物理核心有2个硬件线程,可以访问512GB DDR4内存。

 

 

每个节点还包含4个AMD MI250X计算加速卡,每张MI250X加速卡内部集成两颗核心,可以看作是2个GPU,也就是每个节点都相当于是八卡。

 

MI250X加速卡号称在同类产品中拥有世界上最快的HPC性能、AI性能,使用新的CDNA2计算架构,搭配升级的6nm FinFET工艺,580亿个晶体管,并使用2.5D双芯整合封装,14080个流处理器核心,80个二代矩阵核心,8192-bit 128GB HBM2e内存,峰值560W。

 

 

计算下来,Crusher总共192颗处理器(12288核心)、768块加速卡(10813440核心),也就是超过1082万核心,还有32TB内存、250PB硬盘。

 

玩「扫雷」的话,应该是不会卡了。

 

新王登基还是群雄争霸


百亿亿次超级计算机一直是兵家必争之地,也就是计算机每秒运算次数需要达到1后面18个0,达到这个量级就称为1 exaflops,所以百亿亿次超级计算机也称为E级超算。

 

E级超算也被视为人类超算发展的一个里程碑,有望在解决全球能源危机、气候变化、环境污染等重大难题上发挥巨大作用。

 

2018年,美国橡树岭国家实验室(ORNL)推出的Summit,理论峰值可以达到200 petaflops,2020年的日本富岳超算理论峰值达到537 petaflops.

 

 

富岳就这样霸榜了两年,万众期待的E级超算还没有出来屠榜。

 

超算榜单的计算是使用64位浮点为基准,主要是因为解决物理模拟所需的三维偏微分方程需要这个精度。现在超级计算机的主要用途已经转为训练深度神经网络了,只需要16位的浮点精度即可,所以不严格的讲,富岳已经是E级超算了,只不过榜单上没有承认。

 

比如特斯拉2021年公布的超级计算机Dojo,它的算力就号称达到1.8Eflops,不过它是基于FP16的低精度,而日本富岳如果使用FP16测试,速度可以达到2Eflops以上。

 

并且一些专用的超算,比如有一个模拟蛋白质折叠的分布式计算的项目,因为所有的计算都可以分开计算,也不涉及多个计算机之间的计算通信等等问题,只需要堆电脑就能达到E级。2020年时项目官方在推特上发文表示,他们已经跨越E级。

 

 

但各个国家对超算的需求没有止步,各种科学仿真实验都需要更强大的超算,负责ORNL计算设施的Justin Whitt表示,Summit超算需求量大概相当于实际能力的4-5倍,所以组装新超算Frontier也被提上了日程。

 

Frontier完成后预期可以达到1.5 exaflops的峰值理论性能,也就是比Summit快7倍以上。更强的是,Frontier的能耗预计为29000千瓦,耗电量增长不到三倍,和当前富岳的能耗差不多。

 

 

除了全AMD架构的Frontier,美国还有其他方案,如Intel处理器+Intel加速卡的Aurora(极光)和AMD处理器+NVIDIA加速卡的Polaris(北极星)

 

Aurora超算系统是美国能源部阿贡国家实验室的超级计算机项目,旨在处理高性能计算、AI/ML和大数据分析工作负载,基于Sapphire Rapids和Ponte Vecchio构建,预计可以实现2 exaflops的峰值计算性能。

 

 

不过英特尔由于研发问题,7nm Ponte Vecchio GPU 芯片延期交付而不得不推迟一年,预计今年或明年才能正式上线。

 

所以阿贡国家实验室暂时选择购买另一台超算Polaris,由Hewlett Packard Enterprise负责建造,预计今年前半年即可交付给早期用户,也是阿贡国家实验室最大的基于GPU的超算。

 

 

英伟达表示,Polaris拥有560个计算节点,每个节点有4个 Nvidia A100 GPU,可以实现约44petaflops的峰值双精度性能,理论 AI 性能可以达到1.4 exaflops,所以Polaris并非是一台严格意义上的E级超算。

 

闷声发大财

 

早在去年6月超算榜单公布之前,就有消息传出国内已经部署了两套新一代的超级计算机。

 

一位不愿透露姓名的权威人士表示,去年3月,在申威Sunway Oceanlite架构上跑过一次LINPACK,也就是目前超算排行榜排名第4的神威太湖之光的下一代产品,其峰值计算性能达到了1.3 exaflops,持续计算能力1.05 exaflops,功率约为35000千瓦。

 

LINPACK是一个可以用来衡量超级计算机性能的测试,LINPACK的编写人之一Jack Dongarra也获得了2021年ACM图灵奖。

 

 

其实早在2018年,由江南计算所、国防科大和中科曙光公司根据不同技术路线研制的三台E级原型系统已经完成并分别安装在济南、天津和深圳国家超级计算中心。

 

三台E级原型机,即神威E级、曙光E级及天河三号性能都进入了中国高性能计算机TOP100的前十位。

 

 

在原型机基础上升级的E级超算系统原计划在2020年交付,目前还没有任何公开的信息,很可能已经推迟。

 

2021年12月,为充分发挥新一代国产E级超算系统强大计算能力,研发适配国产超级计算系统的关键技术和应用软件,国家超级计算天津中心和国防科技大学,联合数十家合作团队,共同发布「面向新一代国产E级超级计算系统的十大应用挑战」。

 

种种消息都在暗示国产E级超算即将面世。

 

 

虽然各国都在争夺「首发」E级超算,但超算的研发并没有想象中那么简单。

 

比如能耗问题,E级计算机除了运算速度快之外,对能耗也有严格要求。如果仅是不断增加处理器,那么体积和功耗会不断增加,这并不是超算可持续的出路,目前业内公认的E级超算能耗标准是在40MW以下达到每秒百亿亿次。

 

前面提到的Aurora超算设计功率就是40MW,而欧洲更是致力于将其首套E级超算能耗控制在10MW内。

 

还有近两年芯片行业短缺、产能不足也会影响超算的组装和研发进展。

 

Hyperion Research公司按照系统验收的时间估算,2021至2026年期间,全球将建成28~38台E级或接近E级的超级计算机,总价值约在100~150亿美元。

 

所以今明两年极有可能是E级超算大爆发的元年,届时人类的计算能力将再上一个新台阶!


参考资料:

https://news.mydrivers.com/1/823/823148.htm

https://www.cnbeta.com/articles/science/1196065.htm

https://new.qq.com/rain/a/20220315A0CXRT00



登录查看更多
0

相关内容

超威半导体公司(英语:Advanced Micro Devices, Inc.,简称AMD)是一家专注于微处理器与图形处理器设计和生产的跨国公司,总部位于美国加州旧金山湾区硅谷内的Sunnyvale。
高性能计算专家Jack Dongarra获2021年图灵奖
专知会员服务
16+阅读 · 2022年3月30日
专知会员服务
97+阅读 · 2021年8月16日
专知会员服务
22+阅读 · 2021年7月15日
清华大学唐杰老师:用于理解、推理和决策的认知图计算
专知会员服务
118+阅读 · 2019年11月30日
扔掉老破V100、A100,英伟达新一代计算卡H100来了!
夕小瑶的卖萌屋
0+阅读 · 2022年3月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
1+阅读 · 2022年4月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员