初创公司该如何做好持续集成和部署

2019 年 9 月 4 日 DevOps时代

作者简介 

裴双才,Geekwolf,现MAKA运维负责人,博客: http://www.simlinux.com 《FastDFS分布式存储实战》作者,《Ansible中文手册》译者。


 RHCA/RHCVA,混迹各种开源社区,专注高效运维、DevOps、性能优化、Docker、MySQL等方向,热衷技术分享,欢迎一起讨论技术,互相学习,共同进步。

前言

持续集成和部署是每一个互联网开发团队都必须要面对的问题,特别是在初创公司,由于业务和技术团队快速增长,技术积累较弱的,所以一个高效的,可持续的运维规范尤为重要。
最近一段时间一直在梳理项目开发流程以及自动化测试和部署规范,作为一个总结和大家分享,希望有所帮助。

高效可持续的运维环境需要合理的规范作为支撑:

  1. 应用管理规范

  2. 权限管理规范

  3. 配置变更规范

  4. 发布策略规范

  5. 日志运维规范

  6. 持续集成部署实战(该内容将在后续文章中进行讨论,本次不展开)

一、应用管理规范

1. 应用版本化

可以使用SVN、Git对代码进行版本控制。

建议使用Git(如:GitLab),并使用Git Group命名规范:大原则为根据产品域名区分,或者根据前后端业务模块进行分组(小写字母命名,横杠[-]作为连接字符)

举例
MAKA官网 http://www.maka.im 对应的Git仓库Group为official,
按照功能模块分组,商城前端对应的Git仓库Group为store。

项目名命名规范

  • 全部用小写字母

  • 横杠[-]作为连接字符

  • 命名规则:[产品名称]-[项目类型]-[自定义名称]

举例
official-store-customer。

实践建议:在创建项目仓库时就要权衡前后端或者大的功能模块的拆分,保持低耦合度。

2.合理的分支策略

常用的 Git 工作流总结如下:

第一种:集中式工作流,很多公司使用SVN,对Git的使用并不熟悉。如果迁移至Git之后,可以考虑集中式工作流进行开发,即代码库只有 master 一个分支,所有开发者只有本地 master 和远端 master 分支。这种方式使用简单,但无法充分发挥 git 的优势。

第二种:功能分支工作流, 与上一种不同的地方在于,除了 master 分支以外还有功能分支。日常开发在功能分支,提测集成时提交 Merge Requests(在 Bitbucket 中是 Pull Request)。

开发者可以在这个时候进行讨论、审核代码,同意后可以合并至 master 分支,未同意则可以让开发者修改后重新提交或者选择关闭该MR。

举例:third-party-login-feature

第三种:Gitflow工作流,两个主干分支 master(正式发布分支)和 develop(功能集成分支)。
开发者应基于 develop 分支创建 feature 功能分支,用于开发,开发完成后提交 merge requests 请求合并进 develop 分支。
此时若到了发布窗口,基于此时的 develop 分支创建发布分支 release 用于测试 → 预发布 → 发布,以避免影响 develop 分支的正常集成、合并功能分支;
release 分支不再有新的功能合并进来,一旦创建只用于 bug 修复并将修复 cherry-pick 到develop分支;

发布完成后,release 分支合并进 master 并分配版本号、打tag,用于存放发布历史。

Gitflow 工作流方式适用于大型项目

第四种:Forking工作流,开发者 fork 官方的 repo 到自己的账号空间,对于官方分支只有只读权限,开发者通过pull request 提交给官方审核是否合并进代码库;
开发者通过同步上游官方的 repo 来使用其他人的代码,分支策略可参考上述三种工作流,适合开源项目。
针对创业公司参与同一个项目的开发者并不多,过于复杂的分支策略并不能带来便利,可以参考 leancloud 的分支模式,根据团队的使用情况进行调整。

介绍下我们当前使用的分支策略:

  • master:主干分支,用作日常开发的基线;
  • userA:开发者A日常开发所在分支;
  • release-201603091106:master分支集成测试完成后,构建到预发布环境时自动创建 release-201603091106 用于发布。
  • hotfix-201603091106:基于当前发布之后的 release-201603091106 分支用于修复bug,通过提交merge requests 方式合并进 release-201603091106,并将修复 cherry-pick 到master分支。

日常开发在 userA 分支操作,然后提交 merge requests 请求合并至 master 分支,本地通过 git fetch origin master,然后在 userA 分支 git rebase origin/master 将 master 最新 commit 合并到本地 userA 分支从而形成闭环开发。

3.关于代码审核

三剑客 GitLab + Jenkins + Gerrit。

Gerrit作为创业公司代码审核工具略显复杂,不足够敏捷,建议使用GitLab的 Merge Requests 或者 Github 和 Bitbucket 中的 Pull Requests 作为代码审核和讨论的工具。
也可以选择 Facebook 的 Phabricator (可同时作为代码托管和评审,非常敏捷,由于 Phabricator 提供的工具集在 Windows 下使用起来不太友好,后来没有选用,后期会分享 Phabricator 的使用思路和工作流)。

4.目录结构

规范的目录结构不仅有利于开发者理解代码结构,更有利于代码的快速部署,以PHP为例,目录结构建议将代码配置文件(如:数据库,Redis,OSS Key,语言开关,日志级别开关等)、日志文件,其他文件缓存等独立于代码库之外存放。

前端项目 src 为源码目录,dist为前端经过压缩合并等最终生成的代码目录(发布时可忽略src)。

每个项目详细写 README.md 文件,详细说明,各个环境对应的访问路径、目录说明、构建压缩方式,Nginx配置等,代码仓库中包含额外的 test 目录存放测试用例(本着谁开发谁写测试用例的原则);

二、权限管理规范

权限有两类:一个是系统权限(包括服务器登陆,数据库/Redis等),另外一个是服务运行时的权限。

1. 系统权限

统一入口,受限访问IP,禁止空密码弱口令,生产环境服务器需要先拨入vpn之后通过跳板机才能连接成功(当然我们使用的是开源当中最好的跳板机 Jumpserver),任何人的操作都需要审计;

生产数据库及 Redis 禁止了外网访问,分别使用 phpMyAdmin 和 RedisLive 统一访问入口,增加了多主机访问及屏蔽了危险操作如 DDL 数据的导入导出等。也需要先拨入vpn 才能访问。

开发测试环境权限控制相对宽松,DEV Leader 和 QA Leader同时具有开发和测试环境的服务器及数据库权限,便于测试和Debug;

生产环境为了便于开发调试生产代码,且不影响线上,增加了 Staging 节点,未在线,但环境代码及后端均和生产一致;

2. 针对服务权限层面

以 Web 服务为例,Nginx 和 php-fpm 运行用户和用户组为:www-data;代码目录用户为 www。

这样代码目录默认情况下 web 服务只读,避免出现文件和目录 777 权限的情况;
日志和缓存目录用户设置 www-data,但要禁止访问 php 等动态文件。

禁止危险函数 phpinfo exec eval system 等,具体可参考:

http://www.sinacloud.com/doc/sae/php/runtime.html

禁止跨目录访问open_basedir,开启前后的性能对比请参考

http://www.simlinux.com/archives/1531.html

三、配置变更规范

1.系统部署

传统IDC机房可以通过定制镜像或者使用 Cobbler 定制安装,运行的服务也可以定制在镜像中,但建议安装系统时注册puppet/salt agent,再自动化部署相关服务。

公有云中可以在服务器上部署相应环境后创建系统快照,制作系统镜像,弹性扩容时可选择该镜像自动化安装。

2.日常变更

日常变更包括服务配置的变更和代码配置的变更,这些操作我们是通过 Ansible,相比 puppet/salt 的好处就是简单方便不用装 agent,后面会详细介绍如何基于 Ansible 做发布回滚。变更的内容使用 git 进行版本控制。

四、发布策略规范

1. 发布时间

注意:以上请根据自己业务做相应调整,避免在业务高峰期发布(除应急bug外)。

我们业务高峰期基本在18:00-23:30,低峰期基本在01:00-06:00。这也是微信分享阅读的高峰和低峰时段。

无论应急Bug还是日常迭代都必须由QA测试通过和产品经理审核通过后才能上线。

血的教训:曾经出现过开发为了修复线上很急的bug,开发修复后自主上线导致生产出现更严重的问题。

2. 发布工具的选择

无论是自主开发发布系统,亦或是使用开源的系统都要本着解决问题的原则,否则只能是重复造轮子,然并卵呀!

开源的持续集成和发布里面个人觉得比较好的如:Jenkins,Walle,Spinnaker,go,Gitlab-ci,Bamboo(收费)等,其他参考。

https://github.com/geekwolf/sa-scripts/blob/master/devops.md

下面介绍我们基于GitLab + Jenkins + Ansible(Flamingo自动化代码发布工具)实现的自动化代码部署平台,流程如下:

Flamingo
(“火烈鸟”,https://github.com/geekwolf/flamingo)是基于 Ansible 的自动化代码发布工具,目的是实现统一的代码发布方式,思路基于 Capistrano,并对Ansisrano 进行了改造可以通过传入语言环境,主机组(应用组/灰度机组等),项目代码库,分支名称,项目名称等参数来进行自动化打包发布,也可以将Flamingo 工具二次打包使用。

Flamingo 本着回滚即发布的原则,以简化发布流程,回滚时传入要回滚的分支即可,其他参数可参看 defaults/main.yml 进行了解;(注:依赖Git/rsync/ansible)

例子:

ansible-playbook deploy.yml
--extra-vars='flamingo_git_repo=git@github.com:geekwolf/flamingo.git flamingo_product_name=flamingo'

执行后生成的目录结构如下图(目录定义请参考 defaults/main.yml):

五、日志运维规范

毫无疑问,规范的日志对于运维和开发排查问题有非常大的帮助,例如PHP项目日志格式可以规范为时间,日志级别,日志内容(比如对于连接多个DB时出现连接不上或超时应该把实例地址一同写入日志),可以参考psr-3的标准 :

http://www.php-config.org/psr/psr-3

通过ELK将业务日志,PHP自身错误日志/慢日志,Nginx慢日志等进行搜集统计并结合Zabbix实现报警,便于及早发现问题。

总结

以上只是粗略对持续集成和部署过程中遇到的问题进行了总结,并不完美,但对于初创公司应该有些帮助,欢迎一起学习讨论!

来源:本文转自公众号“高效运维”。

GOPS全球运维大会 2019 · 上海站,最想听的专场,你来做主~

第十三届 GOPS 全球运维大会,为期两天,近 20 个专场等你来评选,扫描下方二维码,选出你心仪的专场~


扫描查看专场设置 ▼

点击阅读原文,查看精彩日程

登录查看更多
0

相关内容

Git 是一个为了更好地管理 Linux 内核开发而创立的分布式版本控制和软件配置管理软件。 国内外知名 Git 代码托管网站有: GitHub.com Coding.net code.csdn.net ...
打怪升级!2020机器学习工程师技术路线图
专知会员服务
99+阅读 · 2020年6月3日
【高能所】如何做好⼀份学术报告& 简单介绍LaTeX 的使用
【新书】Java企业微服务,Enterprise Java Microservices,272页pdf
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
82+阅读 · 2020年1月13日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
108+阅读 · 2019年6月21日
社区分享|如何让模型在生产环境上推理得更快
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
如何用TF Serving部署TensorFlow模型
AI研习社
26+阅读 · 2019年3月27日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
占坑!利用 JenKins 持续集成 iOS 项目时遇到的问题
【机器学习】如何通过机器学习预测维护设备?
产业智能官
16+阅读 · 2018年7月9日
【人工智能架构】深度解密京东登月平台基础架构
产业智能官
11+阅读 · 2017年9月26日
一个人的企业安全建设之路
FreeBuf
5+阅读 · 2017年7月7日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
23+阅读 · 2018年8月3日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关资讯
社区分享|如何让模型在生产环境上推理得更快
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
如何用TF Serving部署TensorFlow模型
AI研习社
26+阅读 · 2019年3月27日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
占坑!利用 JenKins 持续集成 iOS 项目时遇到的问题
【机器学习】如何通过机器学习预测维护设备?
产业智能官
16+阅读 · 2018年7月9日
【人工智能架构】深度解密京东登月平台基础架构
产业智能官
11+阅读 · 2017年9月26日
一个人的企业安全建设之路
FreeBuf
5+阅读 · 2017年7月7日
相关论文
Arxiv
102+阅读 · 2020年3月4日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
23+阅读 · 2018年8月3日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员