云渐成大气候:公共云上的超级计算机,跻身TOP500中的第136位

2019 年 8 月 7 日 云头条
Descartes Labs打造了世界上速度最快的TOP500超级计算机之一,这也是这份榜单上第一个在虚拟化公共云资源上运行的系统。
 
Descartes Labs的Linpack Benchmark得分为1.926 petaflops,使用AWS上公开可用的云资源

早在1998年,Mike Warren及其在洛斯阿拉莫斯国家实验室的同事们组装了第一个跻身世界上速度最快的超级计算机TOP500榜单的Linux集群,一年后他第二次摘得高性能计算领域的最高奖戈登•贝尔(Gordon Bell)奖。如今,21年后他领导Descartes Labs的技术团队,完成了另一个开创先河的壮举:使用公共云中的虚拟化资源,创下了新的性能基准记录,获得的运算速度(petaflops)比2010年世界上最快的计算机更胜一筹。

Mike在1998年使用Linux称得上是个另类,因为榜单上另外499台超级计算机每一台使用五花八门的专有操作系统。他早已厌倦了在IBM、Sun和五六种版本的UNIX之间移植代码,因此Linux提供的硬件和软件分离这个优点得到了积极的支持。除了可扩展性、互操作性和全球社区等其他优点外,Linux还让Mike及HPC的其他创新者得以通过将商用PC组装成各自的定制超级计算机,改变游戏规则。

Mike Warren在1998年展示了第一台跻身TOP500榜单的Linux超级计算机

今天,曾经的孤例现在成了事实上的标准,因为TOP500超级计算机榜单上的每一台都运行Linux。采用Linux操作系统表明简化HPC应用软件的设计和部署方面迎来了巨大飞跃。过去,相关人员会购买一个特殊的IBM或Cray系统,然后很容易购买邮购的PC并安装Linux,现在亚马逊及其他云提供商基本上让人们无需操心硬件部分。由于用途一分为二:专用机器上运行的“紧密耦合”应用软件和在公共云中运行的“松散耦合”应用软件,大概2002年开始这个最新动向彻底颠覆了HPC供应商,尽管两者在底层使用实际上相同的硬件。

TOP500榜单上的500台超级计算机现在全都运行Linux

松散耦合的应用软件在拥有数万个乃至数十万个核心的公共云上成功地运行,这方面有许多知名的例子。Descartes Labs运行众多应用,涉及药物发现、材料科学、粒子物理学以及数PB卫星图像的清洁和调校。这些“大规模并行”应用本身就很惊人,但缺乏“互联”或核心到核心的低延迟网络通信,而支持大型物理模拟(比如地震处理、热力学、宇宙学和天气预报等)需要这种网络通信。这些高度互联的应用之前被认为仅适用于庞大的内部部署系统,比如橡树岭国家实验室的Summit超级计算机或中国的神威•太湖之光,后者用于借助一种名为“N体模拟”的技术来模拟宇宙的诞生。

2019年考验公共云的极限

正如Descartes Labs团队最近在2019年4月的复活节周末展示的那样,这两条超级计算路径可能会再次开始趋于融合。使用AWS上公开可用的竞价资源,在运行标准的HPC测试:一种名为Linpack Benchmark的巨大矩阵反转时,达到了1.926 petaflops的性能。Descartes Labs工程团队当时的目标是使用Linpack Benchmark看看云的扩展性有多好。既然它能够在TOP500榜单上排名第136位,那么它应该能够为Descartes Labs运行全球规模的客户模型,包括为嘉吉(Cargill)和DARPA开发的模拟。

Descartes Labs跻身TOP500榜单的超级计算机的重要细节。请注意AWS上的虚拟化处理器以及Rmax Linpack和Rpeak基准测试速度。

这个故事一个更值得关注的方面是, Descartes Labs 没有要求亚马逊给他们的工程师任何特殊的规格、折扣或定制规划或设置。

Descartes Labs想看看其是否可以自行打造超级计算机,如果成功完成,这也将证明AWS的自助服务模式。

Descartes Labs的团队只是遵循标准步骤来请求“放置组”(placement group),即高网络吞吐量实例块,这有点像在AWS基础设施中预留小型橡树岭国家实验室。

Descartes Labs被授权访问AWS US-East 1区域中的一组节点,公司信用卡被扣除约5000美元的费用。HPC大众化的潜力显而易见,因为以这种速度运行定制硬件的成本可能更接近2000万美元到3000万美元,更不用说一年半载的等待时间了。

Mike认为这是“虚拟化”处理器第一次用在TOP500榜单上的超级计算机,不过AWS之前以性能只有四分之一的0.484 petaflop系统上榜,该系统被广泛认为在裸机硬件上运行。

Descartes Labs的系统使用独特的技术,比如Descartes Labs代码与虚拟化的AWS英特尔Skylake处理器之间经过微调的虚拟机管理程序,以及MPI消息传递的高级使用和Packer工具,后者用于创建同样的机器映像,机器映像管理每个节点上的软件配置。所有这些组合起来,可能意味着Descartes Labs系统在TOP500榜单上因独特的软件类别占有一席之地。

Mike Warren今天的愿景是让早期的Linux继续发扬广大。他清楚这句老话“人人知道云对紧密耦合的HPC来说无用。”但他认为事实根本并非如此。云绝对大有用途。它不是什么魔法,而是结合了经验、技能和创新理念。出于某种原因,其他人还没有真正尝试过云。这有点像没人知道你可以使用邮购的PC来组装自己的超级计算机,或者没人知道你可以使用Linux,而不是处理IBM或Cray上交付的最新版本的UNIX。

在Descartes Labs位于圣菲的总部,其团队不断调整为全球规模的地球科学项目提供服务所需的理想架构。这些项目包括大规模天气模拟、地震建模中的巨型3D傅里叶变换以及大气中的温室气体混合动力学。

Descartes Labs认为,真正的HPC应用软件最终会大批迁移到云端。与传统超级计算机相比具有的优势很难被忽视。HPC专业人员可能以高价购买自己的系统,或者在高度专门化的集群上租赁时段,这个集群可能使用两年前的旧版Linux,需要更新。而在云端,它完全归你控制。可以有七个不同版本运行针对特定应用调整的不同Linux内核,而且管理起来很轻松。

总之,超级计算机历来被用于非常特定的用途,但云可以适用于诸多用途。HPC的大众化正在将价位降低到公司企业可以接受的水平


登录查看更多
0

相关内容

AI创新者:破解项目绩效的密码
专知会员服务
34+阅读 · 2020年6月21日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
13+阅读 · 2020年6月2日
德勤:2020技术趋势报告,120页pdf
专知会员服务
191+阅读 · 2020年3月31日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
2019中国硬科技发展白皮书 193页
专知会员服务
83+阅读 · 2019年12月13日
IBM《人工智能白皮书》(2019版),12页PDF,IBM编
专知会员服务
21+阅读 · 2019年11月8日
美陆军计划部署四大新型地面无人系统
无人机
26+阅读 · 2019年4月30日
2018年低轨通信卫星行业研究报告
行业研究报告
8+阅读 · 2019年4月25日
外泌体行业规模2030年预计将达22.8亿美元
外泌体之家
18+阅读 · 2019年3月26日
热烈祝贺南京某高校DGX-1深度学习超级计算机集群顺利交付
北京思腾合力科技有限公司
5+阅读 · 2017年11月18日
安全牛发布《威胁情报市场指南》报告
安全牛
13+阅读 · 2017年7月10日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
VIP会员
相关VIP内容
AI创新者:破解项目绩效的密码
专知会员服务
34+阅读 · 2020年6月21日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
13+阅读 · 2020年6月2日
德勤:2020技术趋势报告,120页pdf
专知会员服务
191+阅读 · 2020年3月31日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
2019中国硬科技发展白皮书 193页
专知会员服务
83+阅读 · 2019年12月13日
IBM《人工智能白皮书》(2019版),12页PDF,IBM编
专知会员服务
21+阅读 · 2019年11月8日
相关资讯
Top
微信扫码咨询专知VIP会员