嘉宾 | 聂安 整理 | 张雪蕊
2022年4月12日,在CSDN云原生系列在线峰会第1期“SRE与智能运维峰会”上,作业帮运维负责人聂安分享了云原生时代运维转型之道。
戳👇观看聂安分享视频
要点简述
传统运维,职责是将工业制成品组装成服务、交付给用户,并维持服务运转;特点是强依附于业务
云原生时代,公有云大量使用、DevOps真实达成、工具体系持续繁荣,传统运维的职责不断被外包、转移、替代,出现了领域危机
运维转型,核心是改变角色认知。运维人,要把自己从依附于业务的运营角色,调整为独立的运维服务提供方
运维转型,目标是运维即服务OPaS。运维转型为服务提供方,专注于打造OPaS能力,持续深化专业性;业务研发借助OPaS,自助完成日常的运营工作
转型实践,洋葱模型、超服务视角、管理面工单ToC这三条路,已经被我们证明可行
平台是服务能力最有力的承接方式,但不是唯一方式。组织、规范、流程、平台,一样都不能少(除平台外,转移成本可能略高)
互联网运维的发展史
第一,继承性。新阶段往往继承、发扬老阶段的优秀经验,又会在理念、技术、组织上有所创新。比如,平台化继承、强化了标准化阶段的成果,数据化继承了平台化的成果,同时引入大数据技术,DevOps也是一个左右能够衔接起来的组织变革。
第二,职能的转移,特别是运维职能的转移。DevOps是运维管理模式的一个分水岭。
一方面,沿着本领域专业化的方向继续推进,不断强化工具体系建设的重要性,包括不断完善自动化、数据化机制,甚至是现在还不成气候的智能化机制。
另一方面,则强调运维研发的模式融合,运维的职责开始逐步转移到业务研发。
随着后来公有云和云原生的大范围使用,运维职责被压缩的趋势更加明显,这也引发了对运维转型的相关思考。
传统运维危机
随着企业大量使用公有云,IaaS/PaaS甚至SaaS都被服务化了,通过API就可以简单的获取;大量的运维建设工作由云厂商帮忙完成了,比如硬件、系统、网络、数据库、大数据等,原厂只需要保留少量的专业选型和集成能力(外包)。
随着云原生技术的普及,DevOps大范围达成,之前只能由专业的运维人员来做的管理操作,可以交给业务研发自助完成,比如服务的交付、变更、观察、容量等,运维职责被大量转移到业务研发团队。
公有云的专业聚集效应,以及云原生的开源体系,提供了持续向好的工具前景。工具化提高效率,就意味着做同一件事需要的人变少了。同时工具化沉淀了很多专业的经验,意味着对运维从业者的技术门槛要求降低了。同时工具如果进化到了自动化、智能化以后,机器就可以完成对人工的替代。
运维转型思路
提炼出自己的服务是什么。
提供服务的能力,先把服务提供出去。
有了提供服务能力之后,要通过建设平台的方式把这个能力固化,让服务提供的更加标准、持久。
围绕着提供服务这个场景,把它变成一个专业的领域,持续深入下去,形成一个纵向深入的、比较完整的闭环。
第一层,要改变角色认知。把自己从依附于业务才能产生价值的运营角色,调整为具有独立价值的运维服务提供方。这是转型的关键部分
业务研发使用「运维服务」,自助完成运营维护工作
第二层,转型实施遵循四步走。提炼服务 --> 提供服务能力 --> 建设平台 --> 持续深入
其中,理解运维价值、提炼出运维服务,是难点、也是方向性的关键点
对于服务实体比较明确的运维角色,提炼服务相对简单。如,CloudOps就是云服务、DBA是数据库、MiddlewareOps是中间件、BigdataOps是大数据
业务运维、安全运维等角色,服务实体抽象比较困难
第三层,达成运维即服务OPaS。运维转型为服务提供方,专注于打造运维即服务OPaS的能力、持续深化专业性;业务研发则借助OPaS,自助完成日常的运营工作。这是转型的目标
运维转型的三明治模型,符合我们对云原生组织形态的判断。这里也有一个额外的好处,运营Toils交给业务研发自助,解放了运维、提效率研发,DevOps!
运维转型实践
第一步,立足于现在已有的运营优势,把原来的运维对象直接变成服务的实体,然后对外提供出去,初步建立一个价值底线。
第二步,抽出很大一部分精力来建设服务实体相关的管理平台。把服务实体的生命周期管理给完整地做下来,平台最终的目标其实是要借鉴DevOps的思想,最终能ToC化,方便降低团队的人力负担。
第三步,深入到组件自身的专业领域中,从代码、架构、运维、性能等多个方面来提升专业性,建立专业的壁垒。
这个团队的服务实体是各种云服务。在资源层可以看到腾讯云、阿里云以及K8s等各式各样的公有云、混合云的资产,是一个多云的架构。
两年前,团队通过各种手工的方式,对外提供了机器、存储、公网带宽等资源,来支撑当时业务的快速发展。
之后我们开始建设多云管理平台。多云管理平台主要结构就是上图里的中间部分,分为资源层、引进层和业务层,管理各种云服务的生命周期,多云管理平台对内提供了机器、带宽、对象存储、CDN等多种能力,CloudOps也成功转型为公司内部的二级云服务提供商。这处在洋葱模型的第二阶段。
接下来我们还会不断强化对公有云的深入学习、选型以及认知的提升,并且会发挥甲方的优势,推动它去做一些有利于我们的演化。争取在公共有或者云服务这个领域建立更多的专业性,达成洋葱模型的第三个阶段。
无论是公有云,还是内部的K8s管理平台,都存在着大量的运维管理操作。这些To Manager的操作往往缺少一些必要约束,只能资深人士开放。为了优化分工、提升组织效率,可以通过工单的方式,将运维管理面安全ToC。工单本身的设计,大量融入了运维变更管理的最佳实践,目前也是运维能力服务化的一个子方向。
运维转型教训
转型和保守的折中。传统运维转型到服务提供方,既不能一蹴而就,也不能全员迁徙,总要有人留下来殿后。因为资源更集中,殿后人员会获得更多的价值回报。
研发能力要区分梯度。从运维转型到开发的同学,开发能力参差不齐,要从简单的业务需求做起;团队要配备足够精致的运维中台开发能力,保障底层架构的干净。在中台这一层把所有研发能力参差不齐的劣势隔离在中台之上,提供一个比较干净的基础底层架构。
平台不是唯一选择。平台是服务能力最有力的承接方式,但绝对不是唯一方式。组织、规范、流程、平台,一样都不能少。
警惕纯粹项目思维。运维还是要参与一些项目,短期内能爆发价值、揽获成就感,但也很容易人走茶凉、价值归零;需要有意识的设计目标,在项目过程中沉淀服务能力。
END
《新程序员001-004》全面上市,对话世界级大师,报道中国IT行业创新创造
— 推荐阅读 —
—点这里↓↓↓记得关注标星哦~—
一键三连 「分享」「点赞」「在看」
成就一亿技术人