10 月 18 号,总书记在数字经济的政治学习中强调道:
“要加强新型基础设施建设,加强战略布局,加快建设高速泛在,天地一体,云网融合,智能敏捷,绿色低碳,安全可控的智能化综合型数字经济设施,打通信息社会发展的信息大动脉,要全面推进产业化,规模化应用,重点突破关键软件,推动软件产业做大做强,提升关键软件技术创新和供给能力。”
这一方面给整个 HPC 产业打了一剂强心针,另一方面也在提醒我们,当下中国 HPC 产业还有诸多困难需要克服。在华为 2020 年发布的《泛在算力》白皮书报告中显示,从总算力来看,美国与中国目前居首,遥遥领先于其他国家。但随之而来的所谓“实体清单”,单方面的让我国在 HPC 领域的技术创新蒙上了一层阴影。
我国的 HPC 产业近年来发展迅速,在 2021 年 6 月发布的 TOP 500 排名中,中国上榜的超级计算机数量高达 188 台,稳居世界第一,但高速发展的行业现状也带来如何通过产教融合、实践育才,形成完善的人才培养体系等相关挑战,因此对于整个计算产业来说,我们仍然任重道远。
10 月 26 日,由中国计算机学会(CCF)和华为技术有限公司联合主办,CCF 武汉会员活动中心和长江鲲鹏生态创新中心联合承办的“2021 计算产业院长论坛 (华中地区)”在武汉召开,论坛汇集了来自华中科技大学、武汉大学、武汉理工大学、华中师范大学、华中农业大学、中国地质大学、中南大学、南昌大学等 30+ 所知名高校的 40+ 位计算产业院长、副院长,共同探讨计算产业的发展和 HPC 技术生态探索。
你可能会想,建立的计算中心越来越多,对算力的需求真的有瓶颈吗?其实,在我国推行数字化建设、产业互联网建设的过程中,算力一直是最重要的核心命题。算力不仅是尖端科研所需要的基础设施,更是千行百业的进步基础。
天气预报是每个人都熟知的电视台“常规节目”,但现有的算力很难支撑高精度的天气预测。对气象的研究建立在对整个大气系统的观测、分析和模拟的基础上,对算力的需求几乎是无限的。
而未来算力又不仅仅要供给数字气象预测或学术研究这个单一领域,制造业、金融业、医疗、交通、公共事业……都需要强大算力的支持。在抗击新冠肺炎疫情的防控工作中,为了确定与新型冠状病毒有关的疗法和疫苗,全球使用了 16 台超级计算机,每秒能够执行 3.3 亿亿次计算。假设一个人每秒钟能够完成 1 次计算,达到上述同等算力需要地球上的所有人 24 小时持续不断地工作 50 余天。
中国信息通信研究院发布的《中国算力发展指数白皮书》中显示,未来五年全球算力规模将以超过 50% 的速度增长,到 2025 年整体规模将达到 3300 EFlops,约等于 16500 台“天河 2A” 超级计算机所能提供的算力总和。
更重要的是,要实现对未来算力和产业发展的全方位协同,仅仅在数字上拥有算力是不够的,生态建设也同样重要。HPC 生态建设的最大痛点是人才,从高校到产业界,HPC 作为尖端垂直领域,始终缺少大规模、高质量的人才梯队。此外,并不是建好了计算中心,就完成了超算任务,超算需要完善的底层国产化基础设施,以及上层完善的应用与可持续发展的软件支持。
针对这个问题,华为集群计算产业发展总监谢海波也在 2021 计算产业院长论坛(华中地区)上,分享了华为的经验和方法。
华为的 HPC 探索可分为两部分,一部分是技术能力建设,一部分是生态能力建设。
首先来看,HPC 未来 3-5 年的驱动力主要涉及三方面:
E 级计算
E 级计算,是指每秒钟计算次数达到百亿亿次的计算能力。而超级计算机的计算能力,一直是考验人类科技水平的一个重要衡量标准,目前我国迈入百亿亿次计算大关,但未来仍存在后续挑战:实现 10E 级、光计算、DNA 存储。据有关专家估计,单是 10E 级计算机制造技术,就可能需要 3 - 5 年时间实现。E 级计算涉及到的技术能力,不仅限于计算,也包括散热、网络、存储等,是架构层面的重新设计,难度很大。
智能化建设
如果说算力已经成为一个国家数字经济发展的基础和数字世界的生产力,而 HPC 和 AI,则构成了算力这一枚完整硬币的两面。谢海波认为,在谈及 AI 与 HPC 融合的问题时,可以分成两步,一步是“HPC for AI”,另一步是“AI for HPC”。从今年来看,“AI for HPC”的落地工作已经大有进展。
服务化
无论是计算网格,还是人工智能算力网络,如何从算力网络的角度为产业赋能,为科研进步做贡献,是整个产业要探讨的重点内容。因此,对于算力网络来说,其本质就是服务化。
今年 5 月,国家四部门联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出布局全国算力网络国家枢纽节点,启动实施“东数西算”工程,构建国家算力网络体系。算力网络像电网把发电站连接起来一样,将算力中心进行联网,为广大用户提供算力服务。
目前华为整个服务 HPC 的基础设施大致可以分为四层来考虑,分别是基础设施、底层架构、软件基础、业务应用四层。
L1 、L2 层是实现硬件国产化的关键。液冷如今已成为 E 级超算的必选项,而鲲鹏、昇腾芯片,也分别在超算和 AI 领域有着不同的侧重点。OceanStor Pacific 是华为自研的系列存储,非常适用于 HPDA 高性能数据分析,也就是利用 HPC 资源的数据密集型负载。
在 L3 层,openEuler 操作系统的全面升级,在近期也非常惹人瞩目。在前一段时间的全联接大会上,openEuler 全面升级并提出全栈原子化解耦,支持版本灵活构建、服务自由组合,通过一套架构灵活支持南向多样性设备,北向全场景应用。这是国产操作系统近期的又一个大动作,让 HPC 的全面国产化逐渐成熟。
生态是个让旁观者容易忽视,令行内人极为头痛的问题,而任何一个产业生态的核心,都是人才。全球超级计算机排行榜 Top 500 中,有多少由中国研发,只是宏观层面的参考数字。但超算行业背后的人才梯队建设情况,则相当不容乐观。
本次论坛 Panel 环节,武汉大学计算机学院副院长黄传河也谈到,HPC 建设首先要解决的是生态问题,这个领域有大量的既有软件系统,如果无法很好的继承,并解决性能等问题,HPC 建设将很难落地。华为谢海波则介绍了华为在 HPC 的生态投入和取得的一些成绩,相信在高校和企业的共同努力下,区域 HPC 的建设必将加速。
论坛中华为计算产品线人力资源总裁肖宁谈到,华为投了 20 亿人民币资金来进行为期 3 到 5 年的可信软件变革,而这其中很大一部分资金是用在提升研发人员上。这暴露出目前人才的素质仍稍显不足,随着计算产业的发展,芯片底层、硬件总机、基础软件等多方面的人才需求也随之迸发,对于企业甚至整个行业来说,亟需更偏向全栈的人才。这其中全栈人才意味着不仅仅要能够完成应用需求更要具备架构性的思维、解耦能力和抽象能力等计算机专业领域核心能力。
肖宁提出未来 10~20 年将是 IT/ 计算产业的决战,同时强调这场决战的决定性因素将是高水平人才,对此,华为从 2020 年启动的“智能基座”计划开始逐步拓展,进一步加强整个加强产业人才供给。华中科技大学计算机科学与技术学院副院长秦磊华说:“我认为从 2005 年信息产业自主可控人才培养到华为智能基座实施,从理念到行动,应该讲这是跨了一大步,我看了一下差不多 15 年,这个真的是不容易,我们见到华为真的行动了。”
在论坛上,谢海波也分享了“鲲鹏众智计划”目前的落地情况。“鲲鹏众智计划”是指通过任务包揭榜方式,邀请高校师生、科研机构、企业伙伴等广大开发者积极贡献智慧,合力打造和提升鲲鹏基础软件能力,实现鲲鹏生态共建共享。到目前为止,HPC 领域发布了 7 个鲲鹏众智的任务包覆盖了 40 款应用,开源软件 200 多款,前 20% 的应用可能消耗 80% 的算力,优先覆盖了有高算力需求的应用。
如何协同高校和产业,共同开发基于鲲鹏架构基础知识编程技能的项目,加强高校和产业的项目合作交流,将是接下来 HPC 人才梯队建设工作的重点。
HPC 的发展重要又颇具挑战,在成长期会面临全面封锁,在成熟期又会迎来市场垄断,在瓶颈期可能又会遭遇技术断供。可以说,HPC 是最考验一个国家技术研发能力的方向。
随着以华为为代表的企业,进一步深入高校和学术界,形成 HPC 生态闭环,相信整个产业会迎来更快地发展