交付效率提升40%,珍爱网基于微服务的 DevOps 落地指南

2019 年 3 月 28 日 DevOps时代

2015-2016年,珍爱线下门店已新增覆盖城市9个,与此同时,CRM系统大小故障却发生了数十起... ...


珍爱网是以“网络征选+人工红娘”模式提供婚配服务的婚恋相亲平台。CRM系统承载了整个珍爱网会员的全生命周期管理,涵盖资源挖掘、用户触达渠道以及服务跟进体系。


CRM系统对珍爱5400名红娘来说,是承载她们全部工作的核心平台;对公司业务来说,承载着引流、转化、支付、客户服务等全部环节。最最重要的是,公司收入的80%都是依托CRM系统完成的。


然而在珍爱网成立10年之际,运行10年之久的CRM系统已不足以支撑业务的快速发展了。


Part.1


我们为什么要做DevOps


经过分析,我们发现CRM系统目前面临着以下问题:


技术上——

  • 传统的系统架构,不再适应敏捷开发,模块耦合,数据库存在单点故障;

  • 容错性差,冗余代码多,修复bug和实现新功能变得困难和耗时。


产品上——

  • 产品功能不够场景化、电子化、智能化;

  • 无法快速响应业务变化,迭代周期长。


我们可是背负着“成就天下姻缘”使命呢,系统重构,研发流程改进,迫在眉睫。


2017年1月25日,捷豹项目组成立,只为给业务打造一个“简单·好用”专注于婚恋相亲的综合服务平台。


捷豹CRM系统(PC端、Pad端、小程序端)的版本发布周期为一周一个常规迭代,紧急版本按天发布。


捷豹CRM系统整体设计思路如下图,我们希望能够实现系统的服务解耦、动静分离以及高可用



然而大家都知道,微服务架构中每个服务都具有业务属性,并且能独立地被开发、测试、构建、部署。换句话说,每个服务都是一个可交付的“系统”。


那么问题来了,如何让需求以小批量形式在团队的各个角色间顺畅流动,并以较短的周期完成小粒度的持续发布呢?


答案当然是 TAPD DevOps流水线,简直是神助攻!


Part.2


整体效果


TAPD DevOps流水线支持集成主流的研发工具,覆盖产品研发全生命周期,提供可视化交付流水线,可以将DevOps各个环节进行统一展示和管理,真正实现一站式持续交付。



自2017年10月起,我们就应用TAPD的DevOps流水线,开展了一系列持续交付和持续改进实践。


持续交付部分


CI和CD实现过程使用Gitlab、Jenkins、Sonar、Jacoco、Nexus、EasyOps、Docker、Kubernetes等工具,分别在代码管理、集成编译、包管理、自动化测试、发布阶段集成到TAPD流水线统一展示和管理。



持续改进部分


在TAPD流水线实践DevOps的过程中,我们也打通了各环节的研发数据。


通过TAPD迭代详情中的Dashboard,可以统计并展示当前迭代的研发效能数据,包括:需求完成情况、缺陷新增和解决情况、代码提交与关联趋势、每日构建统计、构建产物版本情况、自动化测试、部署发布等全过程数据,研发效能度量更直观、更深入,让改进方向更明确,也让效能提升更明显。



改进效果


基于以上持续交付和持续改进实践,我们的研发效能也有了质的提升。


我们从业务响应周期、持续交付能力、开发质量、交付质量四个方面来衡量研发效能,下图展示了各个维度的改进效果。



Part.3


我们的DevOps是如何落地的


那么我们具体怎样利用TAPD DevOps流水线,一步步实现持续交付,最终提升研发效能的呢?


下面我将分享我们在各个环节的做法。


1 代码管理环节


1.1 建立TAPD分支管理规范


改造前:


开发编码过程中最崩溃的应该是:“我刚写好的代码又被谁覆盖了!”


并行开发过程中,最痛苦的莫过于开发的需求太多, 记不清哪个需求在哪个分支上,或者多个需求在一个分支上开发,撤代码撤到望眼欲穿……



改造后:


通过走访调研,最终我们确定遵循“一个需求一个开发分支”的原则,方便管理且可追溯,并行开发,互不干扰。


在Jenkins上创建Job,通过TAPD和Git的API,将TAPD需求ID与Git分支关联,创建的分支名为“工程名-创建日期-TAPD需求ID”,开发小哥哥去Gitlab上拉创建好的需求分支便可努力搬砖了。


待需求上线后转关闭状态的21天,自动将该分支删除,整个分支管理过程实现自动化


效果:


截至目前, 通过该Job创建分支次数达到1564次,创建成功的分支数远大于1564*3 个,而合并冲突数小于5次


1.2 TAPD源码关联


改造前:


在测试过程中, 最繁杂的应该是代码合并环节了,一个需求涉及到多个工程的代码变更,每天各个开发针对不同的需求,提测到测试同学进行代码合并。


开发/测试的比例为4:1,需求涉及的前后端工程40余个,面对一个需求到底要合并哪些工程,测试同学每天要在风中凌乱好几回……


改造后:


与研发效能度量深度结合,良好编码习惯,从源码关联开始。


通过源码关联功能,我们实现了以下闭环


所有研发任务都必须录入TAPD,并且只能通过需求ID来创建Git分支 → Commit信息必须关联源码提交 → 度量数据只获取关联源码的代码行 → 根据这部分数据进行研发效率和质量的度量。


测试同学只用关注该需求的Gitlab提交记录即可知道本次变更涉及的工程有哪些,不用和开发一个个确认,减少沟通成本。


由于提交比较频繁,我们写了一个爬虫脚本,将抓到的版本库去重,得到该需求要合并的工程。然后我们将待合并工程,生成TAPD的合并任务分发给指定同学,将整个过程自动化管理



效果:


综上,通过“源码管理”和“TAPD分支规范”,有效规避了代码管理过程中,冲突多、管理乱、不可追溯的问题,同时也实现按需求粒度、灵活发布的效果。


自2018年10月以来,通过这套代码合并任务自动分发方案,我们成功迭代上线了18个常规版本10个紧急版本,整个过程简单清晰,单任务合并整合环节,从原来的40分钟,减少到5分钟


2 代码质量分析


改造前:


Sonar其实很早就开始在项目过程中使用了,但是效果并不太好。


无论对于开发还是测试同学,都需要多维护一个系统,并且改动频繁,当某一个服务经手的开发过多时,Sonar扫描出问题后无法快速分配责任开发


另外Sonar配置到集成环境构建时触发,让bug从发现环节开始滞后,修复过程也对版本稳定性带来风险


改造后:


在2018年底,我们发现TAPD流水线集成Sonar,还可以一键创建缺陷到TAPD。


于是,我们将Sonar扫描前置到开发每一次提交到Git仓库便触发构建,让Sonar缺陷在开发自测环节变暴露出来,同时,每一次构建能清晰的展示本次代码变更人,开发可以安心地收下这一页的bug啦。



当然,有的开发小哥哥可能没有及时修复,没关系, 测试小姐姐将未及时关闭的Sonar缺陷通过“批量导入缺陷功能”每天自动化(通过TAPD的API实现)创建到你的缺陷清单里,开发小哥哥再也不会错过那些被遗忘的bug啦。



噢,贴心的TAPD还在缺陷详情里把bug的文件名和代码行都给展示了呢,开发小哥哥和测试小姐姐终于可以不跨系统维护Sonar了。



3 集成编译环节


需求分支经过静态扫描和自测通过后就要提交到集成环境啦。


在这个环节,除了常规编译步骤,我们还增加了开发的单元测试Jacoco覆盖率检测。在集成环境我们也增加了Sonar进行最后一次扫描确认。


单元测试框架为JUnit,与TAPD进行关联,构建后在“自动化测试”板块可以看到本次构建的单元测试用例总数和通过率(单元测试通过率是我们对研发质量度量的一个很重要的指标),单元测试不通过的case和Sonar扫描的bug处理方式一致,由API脚本统一录入TAPD缺陷进行跟踪。



单元测试的覆盖率情况,方便开发同学分析单元测试用例对测试对象的分支覆盖情况。



编译后就是Sonar进行最后一道集成环境的全量代码扫描工作了。


4 包管理环节


我们在包管理环节的实践主要分为对 “jar包”和“Docker镜像”的管理。


构建生成的jar包,推送到Maven仓库(用于其他项目的依赖引用)。将Nexus集成到TAPD,通过“构建产物”可以看到软件包的详细信息。



同时,流水线可以清晰看到构建步骤的耗时分布,也帮助我们有针对性地去优化构建效率。



然后进行Docker镜像打包,推送到Docker仓库,生成配置,并推送到配置仓库。


顺便说说为什么要用Docker吧!


项目初期只有一个dev环境,随着版本构建的频繁,稳定的测试环境对测试同学来说尤为关键,但是部署一套40余工程的环境对运维同学来说工作量也非常之大,于是我们引入了容器技术。在环境搭建、应用迁移方面都有很好的收获。


同时,基于珍爱的业务背景,特别是对于特殊节日搞活动时候,容器化能快速对服务进行横向扩容;减少对环境的依赖,部署快、扩容快。同时容器运行时会对服务运行环境进行隔离,也有效提升了安全性和服务运行的稳定性。



5 自动化测试环节


自动化测试分为接口测试和UI自动化测试两个部分。


接口测试主要通过开源工具实现,但涉及到跨系统维护,以及测试结果不能很好地跟踪,因此在TAPD上尝试用Python Unit Test做些核心场景的接口测试,以便于将这部分测试纳入到整个研发流水线当中,构建成功后自动触发场景接口测试,失败的用例也能直接在TAPD跟踪



UI自动化,则是我们自己研发的平台,通过关键字驱动实现,并增加了代码覆盖率检测,以帮助测试人员分析哪些分支情况是没覆盖到的。



测试结果转为XML格式后也可以统一集成到TAPD管理,可以清晰直观地展示自动化测试结果。



目前我们的自动化用例覆盖业务流程达239个case成功率94%,运行时长15min,代码覆盖率21%。


6 部署发布环节


我们整个发布流程简单分为以下几个步骤,部署发布环节主要用主流部署工具完成。

Part.4


研发效能度量


每月通过TAPD产生的过程数据进行研发过程效率和质量分析。同时我们也设立了相关奖项激励大家正向PK,提升效率的同时更加重视研发质量。


研发效率分析


得益于TAPD的强大API,我们可以拿到需求交付过程数据。



通过深入分析,我们可以知道效率较低的环节到底是什么原因导致,以制定更有效的提升效率的方案,可以是流程自动化,也可以是制定规范。


研发质量分析


而研发质量分析方面,我们希望能在团队内部形成重视研发质量的共识和文化。


我们会统计出研发同学本月上线的任务数、代码行、花费、生产bug,来计算出有效花费,遵循“好、多、快”原则,评选出优秀的个人和团队进行表彰鼓励。



噢,TAPD的API好好用,以上提到的脚本均由测试同学通过API实现,你会发现高效的质量度量是一件特别有意思的事情,质量度量后的效能提升更是一件特别有成就感的事情!


Part.5


总结


珍爱网捷豹CRM项目,应用TAPD DevOps可视化流水线,集成业界主流研发工具,实现一站式持续交付管理,让整个研发过程清晰、直观、透明。


在这一过程中,我们基于TAPD提供的API接口,进行了二次开发,实现了多个环节的自动化闭环。


此外,我们通过API以及TAPD Dashboard,获取持续交付过程数据,从而进行研发效率和质量的分析以及持续改进。


基于以上实践,我们从业务响应周期、持续交付能力、开发质量、交付质量4个方面衡量的研发效能,都有了显著的提升。


我们将持续在此基础之上不断完善和优化,挖掘TAPD DevOps流水线的更多场景,全方位提升研发效能。


好咯, 今天的分享先到这里啦,我要去开早会啦!


欢迎留言与我们多多交流哦~




点击阅读原文,提升团队研发效能

登录查看更多
1

相关内容

FPGA加速系统开发工具设计:综述与实践
专知会员服务
66+阅读 · 2020年6月24日
大数据安全技术研究进展
专知会员服务
94+阅读 · 2020年5月2日
德勤:2020技术趋势报告,120页pdf
专知会员服务
191+阅读 · 2020年3月31日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
68+阅读 · 2020年3月9日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
阿里巴巴全球化架构设计挑战
InfoQ
35+阅读 · 2019年11月25日
【精益】精益生产与智能制造的联系和支撑
产业智能官
37+阅读 · 2019年9月14日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
5G时代:北京移动业务支撑系统 DevOps 实践
DevOps时代
15+阅读 · 2019年6月13日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
如何快速入门TensorFlow ?丨极客时间
InfoQ
4+阅读 · 2019年1月8日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
VIP会员
相关VIP内容
FPGA加速系统开发工具设计:综述与实践
专知会员服务
66+阅读 · 2020年6月24日
大数据安全技术研究进展
专知会员服务
94+阅读 · 2020年5月2日
德勤:2020技术趋势报告,120页pdf
专知会员服务
191+阅读 · 2020年3月31日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
68+阅读 · 2020年3月9日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
相关资讯
阿里巴巴全球化架构设计挑战
InfoQ
35+阅读 · 2019年11月25日
【精益】精益生产与智能制造的联系和支撑
产业智能官
37+阅读 · 2019年9月14日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
5G时代:北京移动业务支撑系统 DevOps 实践
DevOps时代
15+阅读 · 2019年6月13日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
如何快速入门TensorFlow ?丨极客时间
InfoQ
4+阅读 · 2019年1月8日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
Top
微信扫码咨询专知VIP会员