2019 年 11 月 1 日,一年一度的GOPS全球运维大会2019上海站暨 2019 运维行业年度颁奖盛典在上海成功举行,会上诞生了运维行业年度风云人物、风云团队、技术专家和明星产品等诸多奖项。本次大会有1800人签到,可谓群贤毕至、盛况空前。
萧田国先生(右一)为方炜先生(左一)颁奖▲
方炜有超过 15 年软件研发项目管理经验,浙江移动 DevOps 、云计算、人工智能团队负责人,《 DevOps 标准》核心编写专家,带领浙江移动全国首个 DevOps 标准三级评估;负责浙江移动智能运维大中台规划,致力于浙江移动云化、微服务化后,传统运维向数字化运维、智能化运维转型,且带领浙江移动参与《 AIOps 白皮书》标准编写;带领浙江移动团队在 DevOps 领域获得“第二十三届国家级企业管理创新成果二等奖”。
方炜先生在行业内的贡献有目共睹,那么他是如何坚持在运维行业 15 年?又是如何带着团队一次又一次的迎接变革并做出成绩?在团队管理方面又有哪些心得?我们带着这些问题对方炜先生进行了深度采访。
高效运维社区创始人萧田国(左)采访浙江移动网络部总经理助理方炜先生(右)
所有的运营商的IT 都分为 B、M、O 三域,B 域是属于业务支撑系统,M 是管理信息系统,而 O 域是网络运营系统。
方炜在 12 年前进入移动做的正是 B 域客服系统的运维,那个年代的系统全是竖井的系统,包括语音设备等都需要运维来管理。在接近两年后,由于方炜之前就有开发经验,于是转到需求开发岗位,主要承担架构的治理、需求管理和设计的工作,同时合作伙伴去承担了 Coding 的工作,两者紧密结合,去做移动的 B 域的业务系统的开发与建设。比如,用户去移动营业厅办理套餐的系统就是B 域系统主要功能。
据方炜介绍,当时移动的工作模式,方炜所在部门接到业务部门的诉求,转成需求之后,在与合作伙伴一起去开发,直到提交给测试人员,三五天之后再上线运维,也就是走的瀑布式模型。由此我们可以了解,瀑布模式,是一种把工作传递的工作模式,并没有人去管理端到端的事情。方炜讲到,当时的传递还是用文档传递,工作在传递的过程中会使很多诉求或者信息丢失,由此会出现上线一次之后会有二次三次的上线,这将成为一个大问题。
而另一个问题是所有人在工作中都是被动的。当每个月都会去 Review 整个工作时,出现问题大家就会相互甩锅,每个人都很被动。
方炜在 GOPS 2019 全球运维大会·上海站奉献精彩演讲
在 2013 年左右,正值移动“以客户体验为中心”的理念而转型,方炜所在的IT部门也要做出转变。方炜说:“让最终用户满意,是我和团队最重要的事情”,于是带领团队开始做敏捷,首先由“手机营业厅”为尝试,并总结经验,此项目敏捷的尝试给团队带来很大信心,之后要在移动所有的项目都转型,这时候,方炜需要建立一套标准,按照敏捷“四步走”来做,“四步走”包括:先松土(改变思想)、再尝试、再固化、再推广。最后通过努力,慢慢形成了 Fast+ 敏捷的一个标准体系。后获得了第二十三届国家级企业管理创新成果二等奖。
在敏捷完成之后,方炜带领团队做了 DevOps ,之后需求、开发、测试合并变成一个部门,与此同时方炜感受到云的技术发展之快速,其实云作为基础设施和 B 域的应用的开发测试是可以剥离的。于是浙江移动建成以容器为核心的DCOS平台,云平台自身也形成了 DevOps,它的规划、建设、开发,还有运维,全部都成一体的,由此容器化、微服务化解构之后的B域系统的开发测试会变得更简单。
“业务是企业最有价值的东西”,方炜说道。
浙江移动云管平台的资源管理核心就是 CMDB,通过 CMDB 把 IaaS 层和 PaaS 层的基础设施以及各种应用管理起来,真正实现以应用为中心的云管平台。所有的云资源是为业务而服务的,也就是说 10 分钟上云是业务中心。比如:一个业务的诉求过来,在 10 分钟之内给它所有的资源,包括架构的搭建和发布,剩下时间都是代码时间,这是方炜和团队当年做的云管平台,这就是以业务为中心的运维。
在运管平台之前的 CMDB 的最大问题是数据腐烂的问题,当运维人员整理数据之后过两天数据又会出现不正确。这是由于底层数据是靠人工流程来驱动的,而不是自驱动。当时的解决办法是把底层的开发部署全部挪到线上,强制把技术栈打通,没有接口,运维人员写程序创造接口,爬虫爬配置文件等,利用技术去解决全部的问题。
CMDB 第二个问题是在实现云化之后,方炜发现最重要的不是云的属性和配置信息,而是各个网元之间的关系,因为一个应用最后下到所有的网元,其实全是网状的,关系是最重要的事。之后团队又利用图数据库来解决问题。
在团队做了微服务化、云化、容器化之后,发现基础设施的技术栈变得更多,应用所用到的技术栈也更多,由此就会涉及到定界、快速处置的问题。
定界分为水平定界与垂直定界,水平定界属于那个功能出问题,而垂直定界是在整个系统分层之后判断是哪一层出了问题。由此垂直定界分为:
而定界的意义就在于快速处置。运维都希望提前发现故障,第二步完成定界,第三步决策,第四步处置,第五步验证。于是团队就想到要做AIOps这件事。
谈到 AIOps,方炜认为,这是机遇与挑战并存的一件事。人们常言,AIOps 其实是运维革自己的命,因为最终我们的希望是无人运维,这样一来传统运维人员,都要下岗。而从另一个角度来讲,运维的已经走向了IT真正的核心领域。你会发现运维分为:数据工程师、算法工程师、架构师等等。其实要求运维工程师对架构更了解,这是走向更高层次能力的代表,而不是传统的重复性事物,我们会发现运维人员在人工智能的时代是不会被淘汰的,这也就是一个机遇。
回顾整个职业生涯,方炜非常欣慰跟上了浙江移动 IT 整个技术架构的变革,同时组织架构和技术协同变更,之后的 IT 转型就会相对简单,这是他认为浙江移动 IT 做的非常好的一件事。
另外,浙江移动有着非常棒的开拓精神,任何事情都愿意尝试。正如团队比较早的尝试 AIOps ,这是由于浙江移动的AI和大数据基础牢固,更容易启动 AIOps ,善于利用年轻血液和人才也是浙江移动做的很正确的事情。
从方炜的经历中我们可以看到,他从做开发到运维,再回到开发,然后再做敏捷、 DevOps 、云,再到 AIOps ,都是企业发展带来的必然结果。方炜回忆,最早时期运营商最关注的是系统,IT 最关注的是系统稳定性,这也是运维工作的核心。随着市场变化,运营商业务越来越难做,开发的需求激增,在开发的过程中发现传统的瀑布流越来越行不通,由此传统的思维模式要改变,此时运维人员迎来了技术架构、技术变革翻天覆地的变化,大规模的代码系统无论如何是跑不快的,团队能做的就是把东西变小,方炜称为技术转型。技术转型也是云时代的转型,微服务、容器化、云时代的转型,一直跟随变化而转型,遇到困难解决问题,实现螺旋式上升。
带多年团队的方炜注意到一件事,我们在做一件工作的时候,往往会把大部分精力放在事务性的工作上,从而没有时间去实现创造性的事物,没有创造就永远不会改变。对于团队,方炜也在讲,要把事务性的工作变小,更多时间去做创造性的工作。另外,要积极参与行业分享的机会,拓宽眼界。两者结合找到工作中的乐趣,使这些成为个人转型的原动力。
天赋决定下限,眼界决定上限,而技能是从下限到上限的过程。然后跟上时代的步伐,自信的走。
方炜认为,外包不是通信行业与其他行业运维的差异点,如何去管理才是差异点。
方炜举例,对于 DevOps 的落地和实施,浙江移动与其他企业有不一样的做法,杜绝外包的整个软件、开发、测试都是黑匣子的情况,在浙江移动合作伙伴是协同工作,每天反馈,然后做自动化脚本,直接做运行测试。
方炜介绍他认为 CT 领域与 IT 领域最大差异是架构的差异。CT 没有云化,所有东西都是一个一个的竖井,是传统竖井的运维,竖井的开发和数据的运维。不是云化,也不敏捷,这是一个大问题。而IT所有的系统只干三件事情:交互、数据沉淀、数据分析决策,相对的 CT 是个长连接,比如打一通电话,这通电话必须一直保持通话,IT是不需要的,用户在 APP 上操作,是瞬间的,不是保持的。CT 必须保持连接,这是最重要的点,很难像IT那样分层解耦做高可用,所以技术架构是不一样的。
所以, CT 的云化是很困难的。
方炜介绍,CT也在做云化解耦,终极目标是三层解耦:
第一,软硬解耦,就是软件和硬件解耦。以前设备商都是把设备存在一个盒子、机箱或机柜,直接拿过来使用,现在希望设备全是 X86 的设备,然后在上面跑软件。
第二,平台层和应用层解耦。就相当于云操作系统和基础设施的解耦。
第三,应用、云平台和硬件解耦。比如 PaaS 层、数据库、中间件,这些和上层的应用做解耦。
做到云化之后可以实现敏态网络,对于国民基础设施有很大影响。方炜举例:比如说演唱会或者视频传输,以前为了保证传输质量,需要提前施工打通通道,并且这个通道的QoS不一定能保障。以后可以实现高清8K屏专用通道,通过网络编排就可以快速开通专用链路,同时可保证整个链路质量。
在敏态的网应用方面,方炜团队在最近推出了 5G 边缘云,配合 5G 通道的切片技术,实现终端到边缘节点的低延时、高带宽的应用场景。方炜举了一个例子:宁波的龙门吊车,吊车去吊集装箱,一个吊车有18个摄像头,通过在机房远程操控,为避免发生事故对延时要求很高,要求的延时一来一回是 18 毫秒。在 18 毫秒内,视频传输数据量是很大的,然后计算,再发指令回去,这些都要用到边缘云的边缘计算。
4G 网络叫做尽力而为的网络, 5G 叫做确定性的网络,未来将产生巨大变化。
作为由中国信息通信研究院主导的 DevOps 标准 中的核心编写专家,方炜认为 DevOps 既涵盖了开发,也涵盖了运维,是打通开发和运维整条线路的一个关键点。DevOps 更关注客户的体验,更看关注业务的发展,这是对运维的一个很大的帮助。
方炜表示按照 DevOps 理念和 DevOps 标准的模式去指导开发,让开发更加的标准化。合作伙伴也能按照标准操作,会很快的就能够适应整个敏捷开发的这种模式,这非常的重要。
方炜丰富的 DevOps 和 AIOps 的经验,给团队带来了以业务为中心,以客户为中心的理念。团队在做任何事情的时候,会思考租户对云的能力是否满意,能够提供更多的什么样的服务等。
学习与创新是年轻人要做的事
对于目前已经做了三到五年运维的年轻人,方炜提出来两点建议:
1、你的现状是什么?对,你要表达一件事情,首先现状什么?
2、当前现状有什么问题?这个问题在哪里是吧?
3、问题的核心原因是什么?
4、你要改变这个问题的核心原因的目标是什么?
5、解决方案是什么?
6、你的预期效果是什么?或者是你已经达成效果什么?
做任何一件事情时候,从以上六段去分析,就可以把事情沟通明白,渐渐地增长沟通能力。
以上是社区专访方炜先生的全部内容,通过近两个小时的交谈时间,方炜为我们分享了人生历程,如何应对新技术带来的变革,怎样面对困难与挑战,实现人生价值,以及职业升值等,这些内容对运维行业是宝贵的财富,也是运维行业的年轻人指路明灯!
与此同时,浙江移动众多领导及大咖专家组团参加GOPS全球运维大会2019上海站暨2019运维行业年度盛典,并做了多个精彩演讲。
运维是互联网的基石,众多行业都有运维老专家的长期耕耘。您有故事么?欢迎和高效运维社区联系,让您的故事鼓舞更多运维人前进的步伐。