你也被阿里云故障惊醒？关于云治理，这四点至关重要

会员服务 ·

你也被阿里云故障惊醒？关于云治理，这四点至关重要

2019 年 3 月 3 日 DevOps时代

2019年3月2日23：55分左右，阿里云华北2区大面积故障，阿里云公告显示原因为ECS服务器IO HANG。如果成本原因，没有做地域容灾，业务基本是全挂，而且无能为力，只能等....很多公司的运维同学估计又是一夜未眠

对此，网友们反应不一：

不仅仅这一次，随着近几年云计算时代的兴起，公有云已逐步成为业务上线部署的首选基础设施，虽然公有云的能力与可用性远高于自建IDC，但仍然逃不了大故障的时有发生：

2018.11.22 AWS在韩国遭遇了长达一小时的网络故障
2018.7.24 腾讯云广州区域主备光缆中断导致故障
2018.7.18 谷歌云全球负载均衡系统出现问题
2018.6.27 阿里云因运维操作失误导致官网及部分产品功能出现问题
2018.4.6 微软Azure 活动目录（Active Directory）访问出现问题
......

同时，微服务架构广泛应用，使得大面积业务上云后出现海量云主机、容器、云函数、数据，这些“海量资源”管理也成为难题。不仅如此，据 RightScale 最新的2019云状况调查报告，35%的云支出被浪费。

是时候将云治理提升到云模式下运维工作的新高度了。

那么具体而言，面对业务大面积上云的环境下的云治理新挑战，如何应对呢？笔者认为以下四点的建设至关重要：

业务部署必须考虑混合云（多区域分布、公有云私有云混合、多云混合等统称）的架构。这是趋势，也是业务可用性的保证，当然这种分布式架构对业务设计与研发能力的高求很高。
应用的故障发现能力。这里是指业务可用性的监测与监控。由于移动服务的“24小时在线”及微服务架构的使用，云模式下监控的频度、密度与传统的监控有所不同，要求也更高。
业务快速部署与调度能力。能发现故障还不够，还要建设业务快速调度与部署的能力，在提升业务可用性的同时，持续提升用户体验。
云资源的使用效率，切实降低成本。业务上云能大幅降低成本，这可能是个“误区”，从RightScale的调查及实际统计来看，如果云资源的使用规划、资源利用率的控制、调度能力等不配套，可能会存在巨大的浪费。

以上关于四点云治理能力，欢迎大家留言探讨。

熊普江，互联网技术精英俱乐部华南副会长、广州会长，云技术专家，资深架构师。2012年-2018年任腾讯布道师、腾讯云高级总监，负责公司云技术、解决方案布道及技术架构评审等工作。曾任上市公司太平洋网络，视频公司PPTV高管。逾 20 年互联网从业背景。曾获2016年度“运维工匠“、2016&2017年度”GITC专家顾问“等称号，在互联网技术圈颇具影响力。

来源：文字转载自“我爱运维”公众号，文中部分图片来源于微博。