“许多经过经验沉淀的运维工作已经不需要人的参与了。”
文|徐文璞
编辑|石亚琼
今年除夕,是李瑾参与微博春节保障的第二个除夕夜,也是他结婚的第一个年头。
“过年不能回家,所以春节假期会更多的联系双方家人。”当被问及休假后最想做什么,李瑾这样告诉36氪。
对许多人来说,今年或许是第三个“就地过年”的春节。而对李瑾这样的工程师来说,留守一线是他们节假期的日常。
在春节这样举国欢庆阖家欢乐的时刻,他们将一半心思牵挂在自己的产品上,支持网友们开心地看春晚、抢红包、打游戏。他们就是大小长假和“购物节”期间,保障全民线上狂欢的幕后工作者——运维工程师及各重保团队的工程师。
与他们在网友认知中整体“低调”的形象形成鲜明对比的是,在生活中,他们的行为特征十分高调。如果你在地铁、公园长凳或是餐厅饭桌上,看到有一个人顶着旁人略微惊诧的目光,在电脑前全神贯注的敲击键盘,那么,这个人多半就是一位在紧急处理故障的工程师。
“做运维真的是很苦,背包、笔记本(电脑)不离身,带背包的时间可能比和自己对象相处的时间还要长。”回忆起成为一名运维工程师的这些年,「销售易」运维副总监赵文华不无感叹的告诉36氪。
成为一名重保团队的工程师或是运维工程师,就意味了在产品交互的生命周期里承担起对用户的“责任”,不分时间、不分场合,不辞辛劳,有召必应、使命必达。
也正因为此,你我才能随时随地快乐冲浪,顺畅体验云上新年。
又是一年春晚重保
2021年大年三十,接近零点时刻,金山云百人春晚保障团队正屏气凝神地等待当晚最后一波流量洪峰的冲击。
受疫情影响,2021年春晚首次采用“云”传播、“云”互动形式,将“云观众”融入现场。也因此,春晚直播的技术支持难度陡增。
在零点到来前的4个小时里,金山云整个春保团队的成员心里都紧绷着一根弦。
不久前,团队中负责运维的大华发现,直播的一路流出现回源连接数超限的隐患,“这是某股不可预见的流量突然涌入,”必须在造成网络异常前消除隐患。
但是由于客户采用了非标准配置,需要手动下发配置完成修复。大华当机立断向上请示,在得到客户授权后,和运维同事2分钟内按标准流程完成了后面一系列操作:配置修改、测试、灰度、上线……
事实证明,2021年春晚直播零点的流量洪峰也在金山云重保团队的预料之中。而稳定顺畅的直播保障和优异的技术服务,让金山云在今年第五度成为春晚直播技术的合作方。
相较往年,今年春晚又有了些许改变。据中央广播电视总台《2022年春节联欢晚会》新闻发布会,今年春晚演播厅首次运用了LED屏幕打造720度穹顶空间,4306平方米的LED屏构成的巨幕穹顶,使观众席与主舞台浑然一体,将演播空间极大地延展。
此外,总台还将运用XR、AR虚拟视觉技术,全息扫描技术和8K裸眼3D呈现技术等,为观众带来栩栩如生的立体影像;采用AI技术让虚拟特效与舞台演员同步,打造虚实交互的神奇视觉效果……
保证全网各终端用户高清、流畅、身临其境地感受到这些技术的实际效果,依然是今年金山云重保团队的任务。为此,金山云重保团队已经筹备了数月。
金山云春节应急保障小组技术运维负责人告诉36氪,今年除夕,金山云重保团队上午11点将在公司全员集合,现场检查所有基础设施,技术侧最后一次做技术调整和切换。下午15点前,完成最后一轮设备检测、应急方案验证、IT现场检查等。在春晚开始前4个小时,所有重保人员将按照既定方案进入重保状态。
相对而言,今年则是京东第一次成为央视春晚红包互动活动的合作方。
2022年1月5日,中央广播电视总台官宣京东成为今年独家互动活动合作方,春晚红包互动预约活动从1月24日开启,筹备期只有短短19天,相比2021年的时间缩短了近30%。
对此,京东云运维项目经理告诉36氪:“之前京东618、11.11相关的备战经验可以参考借鉴。”不过较于购物节,春晚直播的红包互动流量要大得多。同时,春节期间用户的规模、所处地理位置、使用的网络都会发生变化,京东云与运营商的合作、流量调度策略、黄金链路梳理等都做出了相应调整。
今年春晚互动活动还有一个特点是周期长,共23天,不过上述负责人告诉36氪,运维压力最大的时间段是在除夕当晚7点到初一凌晨2点。
届时,5个小时左右的春晚直播,主持人会进行7轮口播提示用户打开京东App“摇一摇”,参与瓜分15亿红包和好物活动,“到时候每一轮都有数亿用户瞬间涌入京东App,形成的流量高峰,远超一个小时左右的购物节水平。”
运维的节假日日常
春晚直播和互动活动的顺利开展,离不开保驾护航的工程师们在一线值守。与此同时,还有更多的工程师们也选择了在业务一线,为保障公司产品平稳运行、及时响应客户需求而留守。
今年腊月二十九,上海的温度仅有3~8摄氏度。这天一早小张会骑25分钟电瓶车到客户公司驻厂值守,“再统一巡检一遍,看看可能的隐患。”
小张是智能运维解决方案服务商云智慧的运维工程师,现在在某金融机构驻场负责产品第三期升级建设的运维工作。除了小张,整个春节假期该项目组的开发和运维共有3位同事要坐班值守。
这是小张工作的第三个年头,因为毕业第一年就赶上新冠疫情爆发,过去两年小张都是让父母来上海和自己团聚。今年也不例外,老家河南信阳疫情反复,小张主动选择在上海留守。
“今年除夕只能和妈妈吃年夜饭了,之前爸爸有事提前回家,现在也不方便过来。”不出意外,下午六点小张就能去到母亲的住所,和妈妈团聚。
小张告诉36氪,“过年最想要的,还是负责的集群不出突发故障,因为解决突发是一个很痛苦的过程。我希望能在问题暴露前,把隐患找到,提前解决。”
尚斯年是一位90后程序员,他的另一重身份是身份认证初创公司Authing 的CTO。两年前,他放弃期权离开阿里,加入创业公司,也开始了他节假日值班的生活。
尚斯年告诉36氪,整个春节假期,Authing的技术骨干会分批参与到远程值班中。他认领的是除夕和初一的远程值班任务。
“除夕在家吃年夜饭,之后家人会组麻将局。我会在看春晚的同时,也看看电脑,扫一眼线上系统监控是否平稳。”尚斯年说,“这么久以来已经和家人形成默契,如果在处理问题的时候遇到亲戚串门,可能一个眼神,他们都会理解。”
家人的理解和支持,是多位受访对象在交流中均有提及的关键词。
李瑾是微博信息系统部的一名工程师,2019年校招进入团队后,他负责深度学习平台信息推荐模型训练。
2021年五一假期是李瑾计划完成婚礼的日子,4月底他请假和伴侣在北京西单商业街选购礼服,这个过程中,他却遇到了突发故障。
情急之下,李瑾在人来人往的商业中心里,“随便进了一家有凳子的礼服店,只能给媳妇说‘能试多少(衣服)试多少吧’。”。
要处理故障,李瑾就来不及照顾对象。每当她穿好一套衣服过来,他只能匆匆抬头看一眼,就说“下一套”。当天他在那家店坐了一个小时,李瑾回忆起当时的场景,依然觉得很诙谐,“她也是一名工程师,很理解我的处境,也非常支持我的工作。”
除夕这天的流量对微博来说是可以预估的,根据过往经验,访问洪峰会从下午开始一直持续到整个晚上。往年的春晚直播,许多节目都会迅速窜上热搜,可以想像,今年应该也不例外。
而李瑾的工作就是保证在流量洪峰的冲击下,当天微博数据平台和信息推荐模型运转正常。
春节值班结束后最想做什么?李瑾告诉36氪:“今年是我们结婚第一年,再加上过年不能回家,所以春节假期会更多的联系双方家人。”
如何解放运维工程师?
运维工程师的辛劳,大家都看在眼里,因此许多互联网科技公司为了减轻运维工程师在重大节假日期间的工作量和压力,会提前在工作部署上下一番功夫。
腾讯TEG(技术工程事业群)的春节运维保障工作在每年国庆后开始。“国庆后开始评估春保数据,根据当年流量的增长采购设备。在设备到位前,要做系列梳理工作,如业务保障预案的梳理、系统薄弱环节及应对方案的梳理。到了12月,60~70%采购的设备会交付,这个时候开始做线上扩容、全链路压力测试。”腾讯TEG社交业务运维组负责人彭克勤告诉36氪,“元旦会有一波不小的流量洪峰,就是这个阶段春保的实战演习了。”
前期做好这些预备工作后,腾讯自研的产品,如QQ、微信、各类图片/文件/小视频平台会在除夕前一两天封网(即应用不再做任何升级),保证备战成果不受干扰。
除夕当天,社交业务运维组仅需8位值班人员,负责对腾讯所有社交相关自研产品的业务运维。
“除非遇到未知故障,不然基本没有什么需要操作的,就是盯盯监控,看看容量水位有没有异常。这些还都有智能告警电话和短信通知,值班群的机器人也会定时推送相关参数。出现了已知场景的问题,基本都能通过模块化封装的脚本自动修复。”彭克勤说。
类似的,CRM厂商销售易的总架构师张英男曾以销售易为例,总结互联网公司如何保证节假日期间系统的稳定性:(1)在节前停止对服务器的调整和系统的更新,非必要不升级,必要做简单升级;(2)安排技术、运维和项目人员值班;(3)应用成熟的自动化运维系统。
数字时代里,不论是企业用户还是终端消费者用户的需求都在快速增长,如果沿袭传统的运维技术,即使运维工程师7*24*365的响应,依然会落后于需求越来越远。于是,新技术的引入成为适应业务发展和减轻运维工程师工作量的双重出口。
几乎所有受访者都向36氪提及,成熟的自动化运维系统会大幅改善运维工作的体验。随着自动故障监控与预警、系统自愈等能力的提升,现在,许多经过经验沉淀的运维工作已经不需要人的参与了。
与此同时,不断普及的云原生技术对提高系统稳定性也颇有好处。如云原生的微服务架构可以将一个庞大的体系拆分为不同的小服务,无论是弹性伸缩扩容、还是针对特定故障节点的下线替换,应对时间都得以大幅缩减。而微服务架构还保证了单点故障对系统整体的影响降低到最小。
对于自动化运维系统和云原生技术带来的便利,腾讯TEG社交业务运维组负责人彭克勤深有体会。2009年彭克勤就加入了腾讯,是一位运维老兵。在腾讯做运维,一开始彭克勤要靠原始的手工脚本处理问题。当时扩容100台机器,需要人工配置各种参数,耗时一周。
2014年前后,彭克勤团队开始使用自动化脚本包,这时扩容100台机器的工时缩短到半个小时。2018年以来,基于云原生架构的镜像系统,现在腾讯社交业务运维组扩容100台机器,只需要不到1分钟的时间。相应的,运维工程师的工作量大幅降低。
对于腾讯TEG社交业务运维的部署,彭克勤总结了三点特征:首先是基础设施的平台化,如对运维日常操作的监控告警、发布变更、日志查询、修复等脚本的集成,便利使用;第二是集群管理自动化,即把很多长链路的固化操作从人工交给机器去做,降低人为操作的失误率;第三是运维决策智能化,如经大数据分析后,系统根据业务的峰值时间,对云资源进行智能调度等。
“前两者应用已经相对成熟,运维决策智能化这一块涉及的东西比较多,我们还处于发展期,需要慢慢完善。”彭克勤告诉36氪。
微博信息系统部的工程师王升志所属的数据平台团队,为用户提供实时数据存储和分发服务。简单来说,就是确保用户发博、转评赞、搜索等行为数据实时传输到后端大数据平台进行处理分析,确保热点事件分发、榜单、推荐流等实时更新。
过去单个热点事件流量居高不下,会大量占用服务器资源,可能对其他业务产生影响。经过一段时间的摸索优化,该问题现在已经得到解决。如今即使有突发热点,微博其他业务线的数据实时获取也不受阻碍。
“目前的架构下,有状态的队列服务实现自动扩容存在较大难度。”王升志说,“我们团队已经在推进相关工作,一定的开发周期后,整个链路的架构都会升级,整体架构云原生化,到时候将能实现存储与计算分别自动扩容。”
销售易运维副总监赵文华告诉36氪,2021年底其团队部分成员已经开始钻研与运维相关的机器学习和深度学习技术,过去,凭借自动运维系统,销售易运维团队60~80%的值守工作已经被系统消化,2022年销售易运维团队将推动自动化运维系统向智能化运维系统升级,提升业务水平。
在技术发展不断将运维工程师从繁重高压的劳动中解放出来的同时,一个技术哲学问题浮现,未来智能运维系统会替代值守的运维工程师吗?受访的大部分工程
师认为,短期内人工的价值依然不可替代。
“有一天真的不需要人为的去值班留守了,那一定是因为很多事情都在某个节点被前置化了。我们一直在不断的探索,在前置的时间段里把该做的做到足够好,演练,预案,自动化等等,只有这样我们后面需要留守的人才会越来越少。争取让大家都安安心心的过个好年”,腾讯TEG对象存储运维负责人黄朝伟告诉36氪。
36氪旗下官方公众号
👇🏻 真诚推荐你关注👇🏻