位列三甲!中国获戈登·贝尔奖后,华为存储再次向世界证明超算硬实力

2021 年 12 月 3 日 机器之心

机器之心原创

作者:吴昕

继荣获 2021 戈登·贝尔奖之后,中国超算再传捷报:根据近日发布的全球高性能计算存储系统排名 IO500 榜单,Top 3 均为中国自研系统,其中华为独占两席。算力、存储和应用开始协同发展,中国超算「造强用弱」的局面正在发生实质性的转变。

数据被视为新时代的石油,不同的是,人类有多焦虑有限的石油何时被耗尽,就有多烦恼无限的数据该如何被保存。


作为数据处理、分析和应用的基础共性支撑,存储始终是计算机系统的性能瓶颈所在,高性能计算(HPC)领域尤其。

中国超算一直因「造强用弱」而饱受非议,这也是为什么近年来国内超算业界对 Top 500 榜单排名表现得云淡风轻,而对再获戈登·贝尔奖的消息却倍感振奋——尽管困难重重,计算正向着百亿亿次级(E级)稳步迈进,应用也开始跟了上来。

但是,关键的存储却少见踪影——直到上个月为止。

2021 年 11 月,最新的全球 HPC 存储系统性能排名 IO500 榜单在 SC21 上公布,Top 3 都是中国自研系统,而且其中两台都是华为已经大规模商用的系统。

根据最新发布的全球 HPC 存储系统性能排名 IO500 榜单,Top 3 均为中国自研系统,其中华为独占两席。来源:io500.org

其中,华为 OceanStor Pacific 系列存储(Huawei HPDA Lab),以 2395.03 的总分名列第二。 该系统采用 NVMe SSD 全闪存固态硬盘,基于自研的 OceanFS 高性能并行文件系统,在 10 节点上实现了 337.75 GB/s(314.56 GiB/s)的带宽和超过 1800 万 IOPS 的元数据性能。

这是什么概念?

还记得 45TB 的 GPT-3 原始训练数据集吗?

不等你泡好一包方便面就已经传完。


不鸣则已,一鸣惊人

大数据、云存储和人工智能的快速发展,不仅增强了对高性能存储系统的需求,也对 I/O 支持应用的性能、数据可用性等方面提出了很多新的挑战。

为促进领域更好发展,HPC 存储专业社区 The Virtual Institute of I/O,2017 年 11 月制定并提出了一套全面衡量 HPC 存储系统的基准测试,也即 IO-500,旨在反映 HPC 存储系统的真实性能,并要求所有测试过程细节包括参数配置全部公开,以便用户了解每个存储系统的优势及缺点

很快,IO-500 便得到了全球 HPC 存储业界的积极响应,成为领域事实上的权威标准。国内超算界的多位专家也向机器之心表达了他们对 IO500 榜单的重视。

IO-500 基准测试主要考察两大关键指标——带宽(GiB/s)和元数据性能(k-IOPS)。前者是大型文件持续高速传输的保证,后者对不同类型数据的高效读写十分关键。

计算总分采用几何平均数的方式,消除个别极高或极低指标的影响,因此更加均衡的系统能够获得更高的分数。换句话说,IO500 榜单总分越高,HPC 存储系统的综合性能就越好。

为了展现实际应用场景中的性能,IO-500 中还有一个「10 节点基准测试」,考察在客户端数量不超过 10 的情况下,被测系统的带宽和元数据性能。值得一提的是,华为 OceanStor Pacific 系列存储在 10 节点榜单上也名列第二(Huawei HPDA Lab)。
 
排名第二的华为 OceanStor Pacific 存储系统 IO-500 测评具体指标,可以看出各项性能均衡。来源:io500.org


性能提升的技术根源:
软硬件协同优化,面向下一代高性能数据分析

IO500 榜单中值得关注的一点是,并没有多少 Top 500 超级计算机的身影。

例如现今世界最快的超级计算机日本的富岳,前几次 IO-500 测评结果不甚理想,这次干脆没有参加测评。

这里面当然有包括超算战略在内的考虑,比如中国这次就没有将新一代神威超算系统提交参与 Top 500 排名。但 IO500 与 Top 500 之间差异,体现出了当前算力与存储的不均衡。

原因也不难理解,随着超算与大数据、人工智能的融合,HPC 正加速向高性能数据分析(HPDA)转型。HPDA 应用的特点是数据量大且经常出现非结构化数据、时效性强、算法复杂,因此其 I/O 模型与传统 HPC 负载有很大差异。

国防科技大学计算机学院院长、银河系列高性能计算机、天河一号和天河二号的副总设计师卢凯曾在 CCF HPC CHINA 2020 指出,传统的并行文件系统并不适合最新的存储硬件技术,POSIX 提供的强一致性在很多情况下实际上严重影响了存储系统的性能,属于「大材小用」。
OceanStor Pacific 系列存储是华为 2020 年 5 月发布的产品,专门面向 HPDA 应用场景,针对 HPDA 负载「数据密集型」的特点,在硬件和软件方面做了一系列优化。

其中配置最高的一款「OceanStor Pacific 9950 高密性能型」,官方称「5U 8 节点,80 盘位 NVMe SSD,提供 160 BG/s 带宽和 200 万 IOPS」,对比这次 IO-500 基准测试结果,可以说是保守宣传了。

就在今年 6 月,权威测评机构 ESG 实验室对华为 OceanStor Pacific 系列存储做了全面的技术测评,实测验证了稳定高性能、多协议融合访问、混合负载访问、超高密设计等指标,并对其性能、成本和可靠性给予了充分的肯定。

不要忽视「可靠性」,根据 HPC 市场分析机构 Hyperion Research 的调研,企业在采购或选择 HPC 系统时,通常算力第一、成本第二,近年来存储虽然得到更多关注,但企业往往忽视后期运维,而由于停机造成的损失——哪怕只有几小时——动辄上万美元。


保存数据就是保存价值,
E 级计算需要与之匹配的存储设施

目前,华为 OceanStor Pacific 系列存储已用于科研、油气勘探、自动驾驶、卫星测绘、生命科学、工业 CAE、超算等多个场景,满足不同 HPDA 应用对数据传输和读写的不同需求。

 
华为数据存储与机器视觉产品线总裁周跃峰曾指出,目前世界上只有不到 2% 的数据得到保存,而在这些被保存下来的数据中仅有 10% 得到应用,海量的数据未被存储和应用是数字化经济当中最大的问题之一。

由于存储受限,科研人员不得不经常考虑该保留哪些数据,删掉哪些数据。例如,CERN 每次运行实验都会产生 PB 级的数据,而他们只存储写论文或实验报告所必需的内容,余下的全部删掉,因为光是保存前者就已经十分艰巨。

被删掉的数据就像灭绝的物种,失去了就永远回不来了。一同消失的还有蕴含在其中的价值。

建设超级计算机从来都不是为了追求极致算力——这是手段而非目的——而是为了计算那些现在还无法计算的问题。

但如果数据没被存储下来,计算从何谈起?

E 级计算时代,新的 HPC 系统将承载更多类型的业务,面对更复杂的 I/O 模型,只有计算与存储协同发展,才能形成良好的高性能计算服务产业生态。

存储是确保数据在全生命周期内发挥价值的保障,HPC 存储系统更是关乎国计民生与国家战略安全的关键信息基础设施。
 
根据 IO-500 基准测试指标,可以看出 HPC 存储性能还有很大提升空间。来源:io500.org

华为在 2001 年进入存储领域,从三五人的小团队和一台预研机产品,到如今在全球拥有 12 个研发中心、4000+ 研发人员、3000+ 专利,全面布局存储产品线。

最新的 IO500 排名没有辜负这 20 年的付出,但 HPC 存储的竞争才刚刚开始。


参考资料
  • White Paper: Establishing the IO-500 Benchmark

  • 卢凯,高性能计算机的存储优化:实践与经验,CCF HPC CHINA 2020

  • ESG Technical Review Huawei OceanStor Pacific HPDA, June 2021

  • Hyperion SC21 Market Update

  • DSC – AI for Science: From Atoms to the Cosmos, Argonne National Laboratory, Nov. 2021

  • Uncovering Access, Reuse, and Sharing Characteristics of I/O-Intensive Files on Large-Scale Production HPC Systems, FAST '20

  • Larry Smarr, On The Rise of Supernetwork Data-Intensive Computing, SC21

  • 10000 字,致华为存储的 18 岁


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

中国5G垂直行业应用案例2022
专知会员服务
34+阅读 · 2022年4月8日
《华为云数据库在金融行业的创新与探索》华为26页PPT
专知会员服务
13+阅读 · 2022年3月23日
华为:6G:无线通信新征程(附报告),30页pdf
专知会员服务
59+阅读 · 2022年2月28日
2021年中国线性驱动系统行业短报告
专知会员服务
17+阅读 · 2021年11月26日
2021—2022中国人工智能计算力发展评估报告,36页pdf
专知会员服务
70+阅读 · 2021年11月6日
专知会员服务
97+阅读 · 2021年9月21日
专知会员服务
79+阅读 · 2021年7月28日
【耶鲁】数据结构与编程技术,656页pdf
专知会员服务
55+阅读 · 2021年4月26日
【NeurIPS 2020】图神经网络GNN架构设计
专知会员服务
83+阅读 · 2020年11月19日
中国开源贡献已达世界前二!
CSDN
0+阅读 · 2022年2月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月19日
Disturbance of questionable publishing to academia
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
Accurate ADMET Prediction with XGBoost
Arxiv
0+阅读 · 2022年4月15日
Quantum Computing -- from NISQ to PISQ
Arxiv
1+阅读 · 2022年4月15日
Arxiv
28+阅读 · 2022年1月13日
VIP会员
相关VIP内容
中国5G垂直行业应用案例2022
专知会员服务
34+阅读 · 2022年4月8日
《华为云数据库在金融行业的创新与探索》华为26页PPT
专知会员服务
13+阅读 · 2022年3月23日
华为:6G:无线通信新征程(附报告),30页pdf
专知会员服务
59+阅读 · 2022年2月28日
2021年中国线性驱动系统行业短报告
专知会员服务
17+阅读 · 2021年11月26日
2021—2022中国人工智能计算力发展评估报告,36页pdf
专知会员服务
70+阅读 · 2021年11月6日
专知会员服务
97+阅读 · 2021年9月21日
专知会员服务
79+阅读 · 2021年7月28日
【耶鲁】数据结构与编程技术,656页pdf
专知会员服务
55+阅读 · 2021年4月26日
【NeurIPS 2020】图神经网络GNN架构设计
专知会员服务
83+阅读 · 2020年11月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员