据CSDN最新官方数据统计,在 3200 万 CSDN 注册用户中,阅读和研究云原生技术的开发者已经达到了 406 万。云原生已成为技术发展的必然趋势,开发者和企业正全面拥抱。
这背后,源于云原生正在成为企业数字化转型的助推器,有效提高 IT 资源规模化、节约化,降低计算成本,同时提升研发效率,帮助企业降本增效。这正暗合了11 年前著名硅谷投资人马克·安德森的一句话“软件正在吞噬世界”。
以阿里为例,从 2019 年的核心系统上云到 2021 年阿里 100% 业务全面上云,再到今年走向全面云原生化的深度用云阶段。深度用云正在帮助阿里打造绿色高效的双 11,实现更好地增效降本,同时也在打破原来的天花板,为技术和业务带来更多的增长动能。
全面上云后,阿里成为降本增效的受益者
伴随电商业务的蓬勃发展,对传统 IT 技术提出了更高的需求,而云计算在成本控制、开发运维、性能稳定性等方面上比传统 IT 更胜一筹,能有效解决以下问题:
一是解决服务器孤岛问题
。在 2007 年前后,消费互联网爆发式发展,那时算力远远满足不了现实需求。在传统模式下为解决算力不足问题,一般是依赖扩大采购规模,然而机器成本巨大,且物理机磁盘、内存各不相同,加上阿里业务需求多样,导致有可能存在闲置物理机没法使用,形成服务器孤岛,造成资源浪费。
二是资源调度困难
。业务需求不尽相同:有些业务需要白天被大量使用,有些则是晚上使用,没有统一调度的话,无法做到分时、错峰使用。
三是研发效能低
,开发者应用上线时非常谨慎,耗时较长,造成业务效率低下。
四是助力云成长
,作为用云的大规模实践者,在2019年阿里也将核心系统 100% 上云,在每年双 11 大规模实战下,用全球最大规模的电商交易系统来协助打磨提升阿里云的核心能力,实现自研技术能力的提升,更好地服务外部客户。
当把业务全面搬到云上后,阿里自身成为上云降本增效的受益者,据阿里巴巴集团 CTO 架构部负责人杨华表示,当阿里整体上云后拥有了四大收益∶一是统一资源,全部统一 CPU 和计算资源,节约数亿成本。二是技术栈统一,大幅度降低沟通成本,让上层研发、运维、安全生产变得高效和统一。三是安全稳定,连续 3 年双 11 零重大事故,保障业务平稳运行。四是灵活创新,比如通过调用云数据库Tair进行云上优化,双11实现了淘宝购物车从120个到300个的扩容,以轻量化连接、异步支持等技术支撑起超大连接数,使单集群访问流量达到100GB/s。
全面云原生深度用云 让双 11变得越来越绿色、经济
今年阿里集团在 PaaS 支持的业务形态中支出占用云总成本达 43%,阿里已进入全面云原生深度用云阶段。据阿里财报披露,阿里用云规模支出 200 多亿,如何让这笔钱发挥更大的价值,对阿里来说是个需要解决的挑战,降本增效成为阿里必须直面的重要命题。
阿里巴巴集团技术风险与效能负责人张瓅玶表示,云原生深度用云是架构和研发模式的全面升级,而云原生增效降本的核心是明确技术聚焦投入于自身的核心竞争力。
如何通过聚焦自身核心竞争力来进行降本增效?以双 11 为例,正走在以大数据和 AI 驱动的前沿技术道路上。目前阿里拥有近千万核在线计算,云上超大规模计算集群支持电商在线与离线业务,MaxComute、Flink 大数据集群支持海量大数据计算,数万卡机器学习和推理平台支撑高效搜索推荐。如每次打开淘宝进行搜索背后,是庞大的 AI 算力支持返回商品推荐。又如支撑商家增长的业务,通过灵骏智能计算,用千亿参数的超大规模模型训练,样本数量达到万亿的规模,将以往需要两周的训练时间缩短到如今的半周时间,训练效率提升 4 倍,资源消耗下降 50%。
用户体验方面,仅图片搜索的模型从去年到今年扩大 10 倍,算力增长非常快,阿里通过云上机器学习平台实现用更低的成本来满足业务的需求在大数据+AI 驱动下,云产品支持业务的高效发展。在今年双11期间,阿里开源了自研大规模分布式搜索引擎 Havenask,其为阿里电商搜索和推荐业务中最核心部分的图化引擎之一,支持包括淘宝、天猫等在内的阿里巴巴集团的搜索业务,支持千亿级别数据实时检索、百万 QPS 查询、百万 TPS 高时效性写入保障。
阿里有数千万核的CPU,从成本效能角度来讲,CPU利用率的提升对阿里的成本效能能否绿色、高效地运转是非常关键的。近两年,阿里混部集群CPU利用率持续提升,已达到业界领先水平。
“从节约网络成本上,以往我们可能关注服务器的支出成本,但网络成本占 IT 开销也占相当比重,通过云提供的外联链路、灵活限速、入口部署优化等策略,同时通过从统一调度到全面FinOps(云成本优化)实践,我们运用成本管理体系支撑优化,通过云计算的弹性能力实现了机器闲置率下降和支持峰值分配率的提升、以及存储、网络弹性成本下降,最终带来业务整体单位算力成本下降。”张瓅玶期待,未来两年会再进一步下降。
由此我们发现,借助于全面深度用云,让双 11正在变得越来越绿色、经济。据了解,阿里自研 CPU 已有一定规模应用于今年的双 11,首次实现了芯片、计算架构及操作系统的协同优化,单位算力功耗降低 60%。
在双碳目标下,阿里云五大超级数据中心全面启用清洁能源,双 11 期间,张北基地和南通基地清洁能源合计超 6000 万千瓦时,相比去年双 11 同时段清洁能源交易量增加一倍以上。
综上我们观察到,阿里依靠强大的技术竞争力,进行全面云原生深度用云,同时也享受云上研发带来的技术红利,实现降本增效。
云原生架构升级,Serverless 开启研发新模式
尽管经历十多年来双 11 的实战,伴随业务、技术架构、相互依赖将变得越来越复杂,未来开发者面临的技术挑战巨大。阿里早有所洞察,不仅是依靠云的能力来优化成本,还应全面升级研发模式和应用架构,来帮助开发者提效。其中 Serverless 是关键的发展趋势之一,今年,阿里巴巴内部确立了以“云原生”作为集团整体技术架构的战略,向 Serverless 化迈进,以实现更加弹性和敏捷的系统架构。同时阿里云也在云栖大会宣布核心产品走向全面Serverless,云也在通过产品能力提升致力让开发者用云就像用电一样简单,为云上业务敏捷提供更强力的支撑。
基于 Serverless 架构,云上研发方式正在发生根本性的改变。开发者可无需关心过多的资源配置等工作,在云上高效进行研发、运维、部署、建站。Serverless 还可降低软件开发门槛,提供更多的预制模块,大幅提高软件生产效率,开启云上研发新模式。
阿里 CTO 程立表示,云原生 Severless 化正在加速重塑阿里应用架构和研发模式。
今年双 11,淘宝首页实现 100% Serverless 化,通过更轻量灵活规范地用云,实现了应用轻量化和运维效率的显著提升,应用部署时长缩短一半。
未来,阿里将持续推进应用全面走向 Serverless 化,实现研发模式和应用架构的全面升级,让应用架构更加轻量和弹性,充分利用云的弹性能力,让应用依赖标准化云服务,让应用可以随时在云上环境弹性部署、随申随用云资源,帮助开发者和企业实现敏捷创新。