阿里云结合业财一体化实践和FinOps理念,提供了原生的产品能力,为企业提供了云上全链路财务经营管理保障。阿里云容器服务推出了企业云原生 IT 成本治理方案,助力企业在云原生云上的场景下,提供企业 IT 成本管理、企业 IT 成本可视化、企业 IT 成本优化等功能。5月19日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2022 云管和云网大会”成功召开。会上发布了《可信云•云成本优化工具能力要求 - 第1部分 原生工具》标准及首批评测结果。阿里云凭借在云上成本管理的产品能力,以满分的成绩通过了全部 33 个能力指标,成为国内首家通过该项评估的云服务商。阿里云企业云原生 IT 成本治理方案拥有五大核心功能:核心功能一:独有的云原生容器场景成本分摊与估算模型。为了解决容器场景下业务单元与计费单元生命周期不一致的问题,容器服务提出了独有的计费与计量相结合的成本估算模型,并加入费用策略(付费类型、节省计划、代金券、用户折扣、竞价波动)、分摊因子(CPU、内存、GPU 卡、GPU 显存等)、资源形态(ECS\ECI\HPC)等因素的考量,实现针对Pod维度的成本估算以及集群占比的成本分摊。通过账单分析将集群在一个阶段内的所有资源成本进行聚合,再配合 Pod 维度的成本分摊能力实现了完整的云原生容器场景成本分摊与估算模型。核心功能二:多维度的成本洞察、趋势预测、根因下钻。支持集群、命名空间、节点池、应用(label 通配符匹配)四个维度的成本洞察,集群维度侧重在云资源的分布、资源成本的趋势变化、集群水位与浪费的比率以及集群成本费用的趋势与预测,可以协助IT管理员准确判断成本消费的趋势,防止超过预算的场景;命名空间侧重在费用的分摊,支持短周期的费用预估以及长周期的成本分摊,支持调度水位、资源用量、成本趋势的相关性分析,协助部门管理员进行成本估算,下钻分析成本浪费,提升部门资源利用率;节点池维度侧重在资源成本规划与治理,通过实例类型、单位核时、调度水位、利用率水位的相关性分析,协助 IT 资产管理员优化资源组合和付费策略。应用(label 通配符匹配)维度侧重在领域场景成本优化,例如:大数据、AI、离线作业、在线应用等各种上层应用场景,都可以通过应用维度的成本洞察进行实时费用预估以及任务级别的成本核算。通过四个维度的成本洞察,可以让全场景的成本优化功能与解决方案都有数据可以支撑,有理有据的进行降本增效。核心功能三:全场景的成本优化能力、解决方案的覆盖。针对于不同企业的实际业务场景,阿里云容器服务提供了全场景的资源画像建立、成本优化能力与解决方案。此外,企业针对成本的优化策略,大部分是需要业务场景支撑的,很多场景下还会存在定制化和二次开发。因此,阿里云容器服务的企业云原生 IT 成本治理方案提供的成本洞察能力与上层优化方案完全解耦的,可以通过四个维度的成本洞察能力,覆盖全场景的成本优化手段的衡量与评估。核心功能四:多集群/多云/混合云全类型云成本管理能力。多云是目前企业上云的新趋势,不同的云厂商的计费模型存在比较大的差异,例如:国内云服务商常见的包年包月付费方式、国际云服务商常见的信用卡预扣/后付、部分云服务商支持的节省计划以及预留实例等等。这些都对多云云管平面的成本分析能力提供了更多的挑战。阿里云容器服务的企业云原生 IT 成本治理方案通过提供统一的云服务厂商的账单与询价接入与默认实现,支持主流的云服务厂商、IDC 自建机房的费用数据的接入。并通过一致的云原生容器场景成本分摊与估算模型进行成本管理。配合企业级云原生分布式云容器平台 ACK One,不仅提供了多集群、多环境的统一集群管理、统一资源调度、统一数据容灾和统一应用交付能力,也提供了统一的财资治理能力。核心功能五:企业云原生IT成本治理的专家服务。企业云原生 IT 成本治理不仅仅是一个产品能力或者解决方案,更是一种云原生时代的企业IT管理、组织流程、文化的演进。阿里云容器服务团队联合阿里云天基团队,通过阿里云云资管家提供完整的 FinOps 理念覆盖的产品及专家服务。比如,我们可以通过多维度的成本分析、洞察功能,了解应用的成本和资源利用率。并能提供趋势预测。为企业财资管理提供决策依据。为了满足企业多样化的治理需求,我们还提供了开放的数据模型,可以通过 Prometheus、OpenAPI等方式集成到企业自己的治理流程中。有了成本洞察能力,我们看看可以利用什么样的手段实现成本优化。
多样化弹性能力:弹性容器实例可以在 30 秒内扩容 3000 Pod
弹性是云最核心的能力之一,可以有效降低计算成本。ACK在资源层和应用层提供了丰富的弹性策略,在资源层,当集群资源不足时,ACK集群可以利用 cluster-autoscaler 在节点池中自动创建新的节点实例。我们可以根据应用负载,选择ECS虚拟机,神龙裸金属实例,进行扩容。基于阿里云强大的弹性计算能力,我们可以在分钟级实现千节点扩容。在ACK集群中一个更加简化的方案是利用ECI弹性容器实例来实现弹性。ECI基于轻量虚拟机提供了 Serverless 化的容器运行环境,具备强隔离、高弹性,免运维、免容量规划的特性。弹性容器实例可以在 30 秒内扩容 3000 Pod,可以轻松应对突发的新闻事件,或者支持自动驾驶模拟仿真这样的批量计算业务。值得一提的是,我们可以使用ECS或者ECI的竞价实例,它可以利用阿里云的空闲计算资源,成本折扣可以低至按量付费实例的 90%。竞价实例非常适合无状态和容错性好的应用,比如批量数据处理或者视频渲染等。在应用层,Kubernetes提供了HPA 的方式进行 Pod 的水平伸缩,和 VPA 进行 Pod 的垂直伸缩。ACK 内建了基于机器学习的AHPA方案、来进一步简化弹性体验,提升弹性的 SLA。K8s内建的水平 Pod 自动伸缩(HPA)有两个不足: 第一个是弹性的滞后性,弹性策略基于对监控指标的被动响应,此外由于应用本身启动、预热也需要一定时间,在扩容的过程中,业务稳定性可能会受到影响;第二个是配置的复杂性,HPA的运行效果取决于弹性阈值的配置。配置过于激进可能导致应用稳定性受影响,配置过于保守,成本优化的效果就大打折扣。需要反复尝试才能达到一个合理的水平。而且随着业务的变化,也会需要重新调整弹性策略。阿里云和达摩院团队合作,推出了AHPA,可以根据历史资源画像,对弹性周期和用量进行预测,提前扩容来保障服务质量,已经在菜鸟PAAS平台、阿里云智能语音服务多种场景经过验证。帮助智能语义交互产品实现90% 的实例在业务来临之前 Ready,CPU 利用率提升 10% 节省 20% 的资源成本。