大家好,很荣幸可以跟大家分享一下阿里巴巴在智能化领域的建设。
在开始智能化运维之前,先跟大家分享一下过往两年内,阿里巴巴在专业领域里做的大量创新:
我们已经开始大规模使用液冷集群来支持高密度计算
我们在 FPGA 建设了统一的编译平台,可以提升研发效率接近 30 倍以上
网络端我们也开始做大量的创新,总的带宽从 25G 到 100G 到 400G
这些创新支持了现有所有 AI 业务的发展,同时,我们也把 AI 融入到基础设施领域,让 AI 重塑现有的基础设施。
我们把智能化带来的价值分为三层:
最底层是数据驱动决策。当我们所有的专业领域业务、所有的数据逐步实现在线化,带来的第一层价值是保证演进是围绕着数据展开的。第二层价值是,逐步透明化可以帮我们发现基础设施层可以突破的技术点,每家公司的业务都是不同的,对底层也会有不同的诉求,这是最下层数据驱动决策层的价值。
第二层是全局优化。我们把所有的业务在线化、全面数字化之后,我们才有机会看到每个专业领域里核心的突破点在什么地方。我们都知道,数据中心内部会规划上架密度,怎样的上架密度是更合理的方式?传统的方式是先对服务器的功耗提出一个评估,然后对 IDC 机架做评估,而现在的方式是把优化变成实时动态的方式,来提升数据中心的利用率。
最后一层是变革。当我们把智能化的能力运用到平台,就有能力把特殊的点转化为极大的优势。以前所有的硬件故障发生的时候,所有的数据中心的运维模式都是属于被动式响应。当智能化后,使用预测算法,就可以提前预估到所有故障,将故障的响应方式从被动响应转化为主动服务。
智能化建设最关键的三件事情:
第一,要把基础设施全面数字化,让所有东西都变成可衡量的体系。
第二,建设端到端、从业务到基础设施全链条的自动化平台,保证你的决策规划和响应速度。
第三,建立 TCO 模型,实现很好的反馈机制,利用反馈不断优化我们的模型。
在智能化领域,我们采用的是横跨专业、机器学习以及优化算法的跨界思考逻辑,基于这样的思路,阿里巴巴重新规划建设了 基础设施领域的三大平台——基础设施规划与交付平台、集群自动化运维平台和数据中心智能运营平台。
通过为这三大平台引入智能化,我们重新创造出了与原来三大功能平台不一样的业务形态。下面我将具体分享智能化时代里,我们对这 3 大平台的改进与思考。
首先分享一下阿里巴巴的基础设施规划与交付平台。这个平台的主要职责从业务需求规划到基础设施规划,再到硬件研发、IDC 建设、生产供应链以及 OS 交付、自动化交付平台。这个平台负责阿里巴巴所有基础设施的规划、建设与交付。最主要的两个职责:第一是提升整体交付效率;第二是保证在不断供的情况下实现成本最优。
我们在很多领域里引入算法后,做了很多大的改造。第一个改造是基于机器学习的方式,建立业务规划驱动。这种方式可以让业务具有更强的规划性,在平台可以快速把业务的规划转化成基础设施的规划,提升整体的基础设施交付链路。通过这种方式,我们提升的效率接近 247%。
第二个改造是,在链路已经全面在线化的时候,引入智能预测 / 预警系统,可以实时感知到业务的任何变化,并且做出实时决策。通过这种方式来提升运营效率,保证全面响应完全是围绕业务的驱动去建设的。
第三个改造,我们为所有专业建设了供需模拟沙盘以及上架策略模拟,通过这种方式可以在线不断模拟以及优化阿里巴巴内部供应链的策略以及上架策略,实时反馈到在线系统,持续优化供应链。
我们在做需求预测,业务端的数据,包括前端的数据,比如阿里云的销售数据,以及下沉的基础设施的库存体系,结合机器学习的方式,解决需求预测的模式。目前我们的准确率最少会达到每个月 85% 左右。我们现在已经推动所有的业务按这种方式运作,从而让基础设施的建设具有极强的规划性。
集群自动化运维平台解决的核心问题是:
怎样提升服务器规模化后的运维效率问题,以及基于业务视角的成本最优的解决方案。
怎么保证业务的稳定性。基础设施下面的任何故障不会影响上面所有业务的发展。
但是,当你业务发展规模到一定阶段的时候,故障一定是不可避免的,我们怎么做?
第一,阿里巴巴集群运维平台建设了一个全自动化的运维方式,这种运维方式最大的优势在于,我们跟所有业务调度的方式,用了一种高标准的协议交互模式,可以把所有物理机的运维跟上层运维相互解耦,实现无人化的运维。阿里巴巴现在物理机集群已经 100% 运用全自动化运维方式,这是第一层在工程上的建设结果。
在智能化领域,我们还为所有的业务的提供基于业务视角的数据决策支撑的平台。平台最大的价值在于:基于我们的数据平台,可以把我们所有基础设施的成本、利用率融入到业务调度里,实现成本最优化;通过对不同类型业务的专业优化,来提升整体业务的成本竞争力。
第二,我们引入了一些算法去做智能异常检测,包含两部分:
第一部分是我们在基础设施领域在硬件领域做了大量的故障预测,通过故障预测去提前发现故障;
第二部分是业务变更预测,我们会把所有业务的变更通过这个平台进行预测,来看它变更后带来的业务的影响。
通过这样预测的方式,结合刚才介绍的集群运维的主动服务能力,可以把集群运维的方式从原来被动的响应式逐步转到现在做的主动服务式的模式。我们在硬盘故障上的预测结果,基本上在万分之八的误报率,召回率比业界提升 20% 左右,我们还在做宕机、网络故障预测以内层故障预测,会坚持用这种方式逐步把我们运维的模式从原来被动响应转成主动服务。
最后一个平台是阿里巴巴的数据中心运营平台,这个平台的目标是提升数据中心内部运营效率以及实现能耗最优。
怎么解决运维效率的问题?通过智能的方式建设一个自主运维平台,通过很多算法的决策来尽可能提升自主运维的成功率。目前为止,通过这种方式我们可以把阿里巴巴每个人运维的服务器台数提升接近 60%。
我们会建设一个全局能耗平台来做全局动态节能体系,我们会在每个领域做深度能耗优化,把能耗的数字化逐步跟上层业务结合起来,提升机柜利用率。对于最核心的业务,我们最大可以提升接近 20% 的机柜密度。
同时我们在做专业领域的弹性机柜电力的创新,未来会把利用率提升更高,希望未来在数据中心可以把电力利用率和设计利用率相符。这是基于机器学习的算法做 PUE 的优化,目前通过深度学习的方式在现在的机房实测可以优化接近 20% 的 PUE。未来数据中心的优化联动会全自动化,实现动态优化 PUE。
除了上面介绍的供应链、服务器、数据中心外,我们在应用层、监控、集群运维都有大量投入智能化,打造全方位的智能运维体系。
作者简介:
刘国华(花名索尼),阿里巴巴研究员。2007 年加入淘宝网,2009 年作为核心架构师负责淘宝网重构,奠定了淘宝网系统全面服务化的基础,2013 年担任聚划算事业部 CTO,建立了服务阿里零售业务的智能营销平台。2016 年加入基础设施事业群,负责阿里巴巴集团运维体系建设;同时兼任研发效能事业部负责人。致力于数据中心运维、集群管理、应用运维、研发支撑等领域平台建设,实现阿里巴巴对基础设施统一管控和资源优化,建设自主演进的智慧化运维和效能体系,Towards a Self-driving Data Center。
此外,刘国华研究员还将担任由 InfoQ 主办的第四届 CNUTCon 全球运维技术大会的联席主席。
CNUTCon 全球运维技术大会全方位、多角度向参会者阐述智能运维时代都有哪些变革,Twitter、RIOT Games、BAT、华为等国内外一线大厂有哪些新技术和新实践。为了满足参会者深入学习的需求,CNUTCon 大会更特设了为期两天的深度培训活动,干货满满。
报名即将截止,扫描下方二维码或点击「阅读原文」了解,使用我的优惠码【devops】购票可以额外优惠!有任何问题欢迎咨询售票小姐姐 Joy,电话:13269078023(微信同号)。