2019年3月2日23:55分左右,阿里云华北2区大面积故障,阿里云公告显示原因为ECS服务器IO HANG。如果成本原因,没有做地域容灾,业务基本是全挂,而且无能为力,只能等....很多公司的运维同学估计又是一夜未眠
对此,网友们反应不一:
不仅仅这一次,随着近几年云计算时代的兴起,公有云已逐步成为业务上线部署的首选基础设施,虽然公有云的能力与可用性远高于自建IDC,但仍然逃不了大故障的时有发生:
2018.11.22 AWS在韩国遭遇了长达一小时的网络故障
2018.7.24 腾讯云广州区域主备光缆中断导致故障
2018.7.18 谷歌云全球负载均衡系统出现问题
2018.6.27 阿里云因运维操作失误导致官网及部分产品功能出现问题
2018.4.6 微软Azure 活动目录(Active Directory)访问出现问题
......
同时,微服务架构广泛应用,使得大面积业务上云后出现海量云主机、容器、云函数、数据,这些“海量资源”管理也成为难题。不仅如此,据 RightScale 最新的2019云状况调查报告,35%的云支出被浪费。
是时候将云治理提升到云模式下运维工作的新高度了。
那么具体而言,面对业务大面积上云的环境下的云治理新挑战,如何应对呢?笔者认为以下四点的建设至关重要:
业务部署必须考虑混合云(多区域分布、公有云私有云混合、多云混合等统称)的架构。这是趋势,也是业务可用性的保证,当然这种分布式架构对业务设计与研发能力的高求很高。
应用的故障发现能力。这里是指业务可用性的监测与监控。由于移动服务的“24小时在线”及微服务架构的使用,云模式下监控的频度、密度与传统的监控有所不同,要求也更高。
业务快速部署与调度能力。能发现故障还不够,还要建设业务快速调度与部署的能力,在提升业务可用性的同时,持续提升用户体验。
云资源的使用效率,切实降低成本。业务上云能大幅降低成本,这可能是个“误区”,从RightScale的调查及实际统计来看,如果云资源的使用规划、资源利用率的控制、调度能力等不配套,可能会存在巨大的浪费。
以上关于四点云治理能力,欢迎大家留言探讨。
熊普江,互联网技术精英俱乐部华南副会长、广州会长,云技术专家,资深架构师。2012年-2018年任腾讯布道师、腾讯云高级总监,负责公司云技术、解决方案布道及技术架构评审等工作。曾任上市公司太平洋网络,视频公司PPTV高管。逾 20 年互联网从业背景。曾获2016年度“运维工匠“、2016&2017年度”GITC专家顾问“等称号,在互联网技术圈颇具影响力。
来源:文字转载自“我爱运维”公众号,文中部分图片来源于微博。
运维同仁,您也中招了么,昨晚睡得如何。。关于云治理,您怎么看?请文末留言。
我们将精选 24小时内留言获赞 TOP 5,赠送智能运维技术图书一本。
希望智能运维时代早日到来,至少别那么多的告警扑面而来啊。。。
阿里云(阿里云-为了无法计算的价值)创立于2009年,是全球领先的云计算及人工智能技术公司,为全球200多个国家和地区的创新创业企业、政府机构等提供服务。
阿里云致力于提供安全、可靠的计算和数据处理能力,让计算成为普惠科技和公共服务,为万物互联的DT世界提供源源不断的新能源。阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算支持不同的互联网应用。目前,阿里云在中国、新加坡、美西、美东等地域设有数据中心。