继荣获 2021 戈登·贝尔奖之后,中国超算再传捷报:根据近日发布的全球高性能计算存储系统排名 IO500 榜单,Top 3 均为中国自研系统,其中华为独占两席。算力、存储和应用开始协同发展,中国超算「造强用弱」的局面正在发生实质性的转变。
数据被视为新时代的石油,不同的是,人类有多焦虑有限的石油何时被耗尽,就有多烦恼无限的数据该如何被保存。
作为数据处理、分析和应用的基础共性支撑,存储始终是计算机系统的性能瓶颈所在,高性能计算(HPC)领域尤其。
中国超算一直因「造强用弱」而饱受非议,这也是为什么近年来国内超算业界对 Top 500 榜单排名表现得云淡风轻,而对再获戈登·贝尔奖的消息却倍感振奋——尽管困难重重,计算正向着百亿亿次级(E级)稳步迈进,应用也开始跟了上来。
2021 年 11 月,最新的全球 HPC 存储系统性能排名 IO500 榜单在 SC21 上公布,Top 3 都是中国自研系统,而且其中两台都是华为已经大规模商用的系统。
根据最新发布的全球 HPC 存储系统性能排名 IO500 榜单,Top 3 均为中国自研系统,其中华为独占两席。来源:io500.org
其中,华为 OceanStor Pacific 系列存储(Huawei HPDA Lab),以 2395.03 的总分名列第二。
该系统采用 NVMe SSD 全闪存固态硬盘,基于自研的 OceanFS 高性能并行文件系统,在 10 节点上实现了 337.75 GB/s(314.56 GiB/s)的带宽和超过 1800 万 IOPS 的元数据性能。
还记得 45TB 的 GPT-3 原始训练数据集吗?
大数据、云存储和人工智能的快速发展,不仅增强了对高性能存储系统的需求,也对 I/O 支持应用的性能、数据可用性等方面提出了很多新的挑战。
为促进领域更好发展,HPC 存储专业社区 The Virtual Institute of I/O,2017 年 11 月制定并提出了一套全面衡量 HPC 存储系统的基准测试,也即 IO-500,旨在反映 HPC 存储系统的真实性能,并要求所有测试过程细节包括参数配置全部公开,以便用户了解每个存储系统的优势及缺点
。
很快,IO-500 便得到了全球 HPC 存储业界的积极响应,成为领域事实上的权威标准。国内超算界的多位专家也向机器之心表达了他们对 IO500 榜单的重视。
IO-500 基准测试主要考察两大关键指标——带宽(GiB/s)和元数据性能(k-IOPS)。前者是大型文件持续高速传输的保证,后者对不同类型数据的高效读写十分关键。
计算总分采用几何平均数的方式,消除个别极高或极低指标的影响,因此更加均衡的系统能够获得更高的分数。换句话说,IO500 榜单总分越高,HPC 存储系统的综合性能就越好。
为了展现实际应用场景中的性能,IO-500 中还有一个「10 节点基准测试」,考察在客户端数量不超过 10 的情况下,被测系统的带宽和元数据性能。值得一提的是,华为 OceanStor Pacific 系列存储在 10 节点榜单上也名列第二(Huawei HPDA Lab)。
排名第二的华为 OceanStor Pacific 存储系统 IO-500 测评具体指标,可以看出各项性能均衡。来源:io500.org
性能提升的技术根源:
软硬件协同优化,面向下一代高性能数据分析
IO500 榜单中值得关注的一点是,并没有多少 Top 500 超级计算机的身影。
例如现今世界最快的超级计算机日本的富岳,前几次 IO-500 测评结果不甚理想,这次干脆没有参加测评。
这里面当然有包括超算战略在内的考虑,比如中国这次就没有将新一代神威超算系统提交参与 Top 500 排名。但 IO500 与 Top 500 之间差异,体现出了当前算力与存储的不均衡。
原因也不难理解,随着超算与大数据、人工智能的融合,HPC 正加速向高性能数据分析(HPDA)转型。HPDA 应用的特点是数据量大且经常出现非结构化数据、时效性强、算法复杂,因此其 I/O 模型与传统 HPC 负载有很大差异。
国防科技大学计算机学院院长、银河系列高性能计算机、天河一号和天河二号的副总设计师卢凯曾在 CCF HPC CHINA 2020 指出,传统的并行文件系统并不适合最新的存储硬件技术,POSIX 提供的强一致性在很多情况下实际上严重影响了存储系统的性能,属于「大材小用」。
OceanStor Pacific 系列存储是华为 2020 年 5 月发布的产品,专门面向 HPDA 应用场景,针对 HPDA 负载「数据密集型」的特点,在硬件和软件方面做了一系列优化。
其中配置最高的一款「OceanStor Pacific 9950 高密性能型」,官方称「5U 8 节点,80 盘位 NVMe SSD,提供 160 BG/s 带宽和 200 万 IOPS」,对比这次 IO-500 基准测试结果,可以说是保守宣传了。
就在今年 6 月,权威测评机构 ESG 实验室对华为 OceanStor Pacific 系列存储做了全面的技术测评,实测验证了稳定高性能、多协议融合访问、混合负载访问、超高密设计等指标,并对其性能、成本和可靠性给予了充分的肯定。
不要忽视「可靠性」,根据 HPC 市场分析机构 Hyperion Research 的调研,企业在采购或选择 HPC 系统时,通常算力第一、成本第二,近年来存储虽然得到更多关注,但企业往往忽视后期运维,而由于停机造成的损失——哪怕只有几小时——动辄上万美元。
保存数据就是保存价值,
E 级计算需要与之匹配的存储设施
目前,华为 OceanStor Pacific 系列存储已用于科研、油气勘探、自动驾驶、卫星测绘、生命科学、工业 CAE、超算等多个场景,满足不同 HPDA 应用对数据传输和读写的不同需求。
华为数据存储与机器视觉产品线总裁周跃峰曾指出,目前世界上只有不到 2% 的数据得到保存,而在这些被保存下来的数据中仅有 10% 得到应用,海量的数据未被存储和应用是数字化经济当中最大的问题之一。
由于存储受限,科研人员不得不经常考虑该保留哪些数据,删掉哪些数据。例如,CERN 每次运行实验都会产生 PB 级的数据,而他们只存储写论文或实验报告所必需的内容,余下的全部删掉,因为光是保存前者就已经十分艰巨。
被删掉的数据就像灭绝的物种,失去了就永远回不来了。一同消失的还有蕴含在其中的价值。
建设超级计算机从来都不是为了追求极致算力——这是手段而非目的——而是为了计算那些现在还无法计算的问题。
E 级计算时代,新的 HPC 系统将承载更多类型的业务,面对更复杂的 I/O 模型,只有计算与存储协同发展,才能形成良好的高性能计算服务产业生态。
存储是确保数据在全生命周期内发挥价值的保障,HPC 存储系统更是关乎国计民生与国家战略安全的关键信息基础设施。
根据 IO-500 基准测试指标,可以看出 HPC 存储性能还有很大提升空间。来源:io500.org
华为在 2001 年进入存储领域,从三五人的小团队和一台预研机产品,到如今在全球拥有 12 个研发中心、4000+ 研发人员、3000+ 专利,全面布局存储产品线。
最新的 IO500 排名没有辜负这 20 年的付出,但 HPC 存储的竞争才刚刚开始。
White Paper: Establishing the IO-500 Benchmark
卢凯,高性能计算机的存储优化:实践与经验,CCF HPC CHINA 2020
ESG Technical Review Huawei OceanStor Pacific HPDA, June 2021
Hyperion SC21 Market Update
DSC – AI for Science: From Atoms to the Cosmos, Argonne National Laboratory, Nov. 2021
Uncovering Access, Reuse, and Sharing Characteristics of I/O-Intensive Files on Large-Scale Production HPC Systems, FAST '20
Larry Smarr, On The Rise of Supernetwork Data-Intensive Computing, SC21
10000 字,致华为存储的 18 岁
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com