作者丨sai
12月2日,一年一度的AWS re:Invent 2019大会在美国拉斯维加斯盛大开幕。根据 InfoQ 编辑在本次 AWS re:Invent 大会上的观察发现,到 2019 年,AWS 的底层能力呈现出两个明显的发展趋势:
AWS 正在将自己计算密集 + 网络密集的能力打造的越来越强,以应对越来越多的高性能计算与机器学习类应用负载的需求。这个方向目前由搭载了最新款 nitro 系统的几款 EC2 实例引领,包括但不限于 C5n、P3dn、Inf1 等系列,还有已经成为标配的万兆网卡。
特别值得注意的是 C5n 这个实例:
上图所示为美国海军研究实验室用超算 Cray XC40、c4 集群与 c5n 集群分别进行天气预报计算的性能比较:纵轴为计算用时,横轴为并行参与计算的 CPU 数量。可以看出,c4 集群(使用 TCP 协议)用到了 200 个以上 CPU 参与并行计算之后出现明显瓶颈,而 c5n 集群(开启了 EFA 网络功能绕过了 TCP 协议——这是最新款 nitro 系统提供的能力之一)即使超过 1000 核也没有呈现明显瓶颈,在计算用时方面的表现已经超越了 Cray XC40。
虽然仍不清楚是否所有现在在超算上跑的负载都已经能够在 AWS 上面以同等的表现跑起来,但是现在已经完全可以说:AWS 的超算 as a Service 已经进入了一个新阶段。
值得注意的是,Nitro 系统给 AWS、乃至整个云计算领域带来的影响是深远的。在会议期间的一次采访中,AWS 首席云计算企业战略顾问张侠特别提醒我们关注 Nitro 系统的重要性,小编觉得他的这句提醒很有道理。在小编看来,Nitro 不仅仅是 AWS 做的一套搭载了特定软件的主板,更加是对云计算操作系统下一步该怎么做的一系列探索,而目前我们所看到的已完成的部分,很可能仅仅是一个开始。不过,这个话题在这篇文章就先不展开了。
另外还值得注意的是 Inf1 这个实例:这是一款 GPU 计算实例。也就是说,它实际上是 G 系列 /P 系列的平行版本!这个系列的名字来自 AWS 自研的 GPU 芯片的名字——Inferentia,专门设计用于机器学习推断(inference)负载的优化。
(Annapurna 这场收购可真值!——Andy Jassy 如是说。)
计算资源往边缘下沉的意思是,把计算节点往越来越靠近终端用户的地方延伸。这个方向目前还在较早的探索期,本次宣布的近地节点服务 Local Zones(洛杉矶的 Local Zone 现在已经可用)、近 5G 运营商末端节点服务 Wavelength(计划在 2020 年之后可用)、以及发布刚刚一年、今年刚刚进入 GA 阶段的私有云节点服务 Outposts,代表了 AWS 在这个方向做出的努力。
值得一提的是,InfoQ 编辑在大会期间采访了虎牙直播的技术负责人,他表示对 Local Zones 和 Wavelength 非常关注。原因是,为了让内容更好看,虎牙直播的内容生产过程需要对主播拍摄的视频做越来越多的加工,观众交互过程也需要越来越多的效果,于是需要的计算量就越来越大,这就意味着仅靠用户的手机 /PC 的计算能力是不够用的;而无论是对虎牙直播的主播还是观众,低延时是最为至关重要的用户体验,所以也不可能把这些计算工作放在离他们很远的节点进行。
目前,可用的计算节点都在各个区域的大数据中心,这些数据中心往往盖在偏远地区,而大部分用户都是住在各地城市里的,用这些数据中心来做此类计算并不是理想的方案。
所以,对于虎牙这一类服务提供商来说,问题就很明确了:在靠近用户的地方都有哪些计算节点可用?可想而知,在全球范围内,面对这个问题的服务提供商不仅仅是虎牙直播这么一家。
对应这个问题,有很多种可能的解决方案和方案提供方;不过,由一家能够提供云计算服务的提供方来解决这个问题,从社会资源的调配来看,很可能是目前最理想的配置!
AWS 为了回应这个问题而发布的两个方案的思路也是很明确的:
Local Zones,把自己原有的 CDN 节点改造成计算节点,已经包含的计算服务包括 EC2、EBS、FSx、VPC、ELB、RDS。
Wavelength,把运营商合作伙伴的 5G 基站改造成计算节点,目前还不知道将会包含哪些计算服务,我想 EC2 是最起码的吧。
这就比较有意思了:AWS 从 2006 年发展至今(2019 年 12 月 4 日),一共在全球开启了 22 个区域(还有 4 个已公布),包含了 69 个可用区(还有 13 个已公布)。如果用到直连网络 Direct Connect,则有 97 个网络节点可选。此外,还有 199 个边缘站点和 11 个区域边缘缓存,遍布在 37 个国家 / 地区的 78 个城市。
AWS Local Zones 的数量会不会很快就发展到 210 个?我觉得这可能不会需要花费特别长的时间。
然而,5G 基站的数量,又将会达到多少?5G 基站计算节点的数量,又将会达到多少?这就是个真正有意思的问题了。
本次主题演讲上,AWS Wavelength 是作为压轴、由 AWS CEO Andy Jassy 和 Verizon CEO Hans Vestberg 联合发布的。这也从侧面体现了这一边缘计算节点的重要性吧!
(我很兴奋!——Andy Jassy 如是说。)
这其实并不是一个 2019 年的新趋势,而是一个历史悠久的老趋势,不过它的重要性摆在那里,所以还是值得讲讲。所谓精细化使用的意思就是,用户可以需要多少买多少、需要什么品质的服务就买什么品质的服务,减少浪费,可以省钱;权限也只分配需要的,需要什么权限才给什么权限,这样更加安全。在今年的发布中,权限管理工具 S3 Access Points、可以在一个计算节点上挂更多存储从而减少计算资源浪费的 Redshift RA3 实例、可以把 ElasticSearch 要分析的日志数据先放到一个不那么贵的热存储上的 UltraWarm 服务、搭载了第二代自研 ARM 芯片(graviton2)的 M6g、R6g 与 C6g 实例,均属于在原有服务上进一步提升了细粒度,给用户提供了更多的精细化操作空间。
跟前两个趋势相比,这个趋势听起来不那么让人兴奋,但是非常的实用,很期待年年都能继续看到。
今天就先分享到这里。