你也被阿里云故障惊醒?关于云治理,这四点至关重要

2019 年 3 月 3 日 DevOps时代

2019年3月2日23:55分左右,阿里云华北2区大面积故障,阿里云公告显示原因为ECS服务器IO HANG。如果成本原因,没有做地域容灾,业务基本是全挂,而且无能为力,只能等....很多公司的运维同学估计又是一夜未眠 

对此,网友们反应不一:


不仅仅这一次,随着近几年云计算时代的兴起,公有云已逐步成为业务上线部署的首选基础设施,虽然公有云的能力与可用性远高于自建IDC,但仍然逃不了大故障的时有发生:

  • 2018.11.22 AWS在韩国遭遇了长达一小时的网络故障

  • 2018.7.24 腾讯云广州区域主备光缆中断导致故障

  • 2018.7.18 谷歌云全球负载均衡系统出现问题

  • 2018.6.27 阿里云因运维操作失误导致官网及部分产品功能出现问题

  • 2018.4.6 微软Azure 活动目录(Active Directory)访问出现问题

  • ......

同时,微服务架构广泛应用,使得大面积业务上云后出现海量云主机、容器、云函数、数据,这些“海量资源”管理也成为难题。不仅如此,据 RightScale 最新的2019云状况调查报告,35%的云支出被浪费。

是时候将云治理提升到云模式下运维工作的新高度了。

那么具体而言,面对业务大面积上云的环境下的云治理新挑战,如何应对呢?笔者认为以下四点的建设至关重要:

  1. 业务部署必须考虑混合云(多区域分布、公有云私有云混合、多云混合等统称)的架构。这是趋势,也是业务可用性的保证,当然这种分布式架构对业务设计与研发能力的高求很高。

  2. 应用的故障发现能力。这里是指业务可用性的监测与监控。由于移动服务的“24小时在线”及微服务架构的使用,云模式下监控的频度、密度与传统的监控有所不同,要求也更高。

  3. 业务快速部署与调度能力。能发现故障还不够,还要建设业务快速调度与部署的能力,在提升业务可用性的同时,持续提升用户体验。

  4. 云资源的使用效率,切实降低成本。业务上云能大幅降低成本,这可能是个“误区”,从RightScale的调查及实际统计来看,如果云资源的使用规划、资源利用率的控制、调度能力等不配套,可能会存在巨大的浪费。


以上关于四点云治理能力,欢迎大家留言探讨。


熊普江,互联网技术精英俱乐部华南副会长、广州会长,云技术专家,资深架构师。2012年-2018年任腾讯布道师、腾讯云高级总监,负责公司云技术、解决方案布道及技术架构评审等工作。曾任上市公司太平洋网络,视频公司PPTV高管。逾 20 年互联网从业背景。曾获2016年度“运维工匠“、2016&2017年度”GITC专家顾问“等称号,在互联网技术圈颇具影响力。


来源:文字转载自“我爱运维”公众号,文中部分图片来源于微博。


运维同仁,您也中招了么,昨晚睡得如何。。关于云治理,您怎么看?请文末留言。

我们将精选 24小时内留言获赞 TOP 5,赠送智能运维技术图书一本。

希望智能运维时代早日到来,至少别那么多的告警扑面而来啊。。。

登录查看更多
0

相关内容

阿里云(阿里云-为了无法计算的价值)创立于2009年,是全球领先的云计算及人工智能技术公司,为全球200多个国家和地区的创新创业企业、政府机构等提供服务。

阿里云致力于提供安全、可靠的计算和数据处理能力,让计算成为普惠科技和公共服务,为万物互联的DT世界提供源源不断的新能源。阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算支持不同的互联网应用。目前,阿里云在中国、新加坡、美西、美东等地域设有数据中心。

商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
38+阅读 · 2020年4月26日
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
德勤:2020技术趋势报告,120页pdf
专知会员服务
191+阅读 · 2020年3月31日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
102+阅读 · 2020年3月9日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
19+阅读 · 2020年1月26日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
知识图谱本体结构构建论文合集
专知会员服务
107+阅读 · 2019年10月9日
阿里巴巴全球化架构设计挑战
InfoQ
35+阅读 · 2019年11月25日
【精益】精益生产与智能制造的联系和支撑
产业智能官
37+阅读 · 2019年9月14日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
【数字化】数字化转型正在成为制造企业核心战略
产业智能官
34+阅读 · 2019年4月22日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
蚂蚁金服微服务实践(附演讲PPT)
开源中国
18+阅读 · 2018年12月21日
已删除
将门创投
9+阅读 · 2018年12月19日
【工业智能】风机齿轮箱故障诊断 — 基于振动信号
Arxiv
102+阅读 · 2020年3月4日
Arxiv
12+阅读 · 2018年9月5日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
38+阅读 · 2020年4月26日
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
德勤:2020技术趋势报告,120页pdf
专知会员服务
191+阅读 · 2020年3月31日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
102+阅读 · 2020年3月9日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
19+阅读 · 2020年1月26日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
知识图谱本体结构构建论文合集
专知会员服务
107+阅读 · 2019年10月9日
相关资讯
阿里巴巴全球化架构设计挑战
InfoQ
35+阅读 · 2019年11月25日
【精益】精益生产与智能制造的联系和支撑
产业智能官
37+阅读 · 2019年9月14日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
【数字化】数字化转型正在成为制造企业核心战略
产业智能官
34+阅读 · 2019年4月22日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
蚂蚁金服微服务实践(附演讲PPT)
开源中国
18+阅读 · 2018年12月21日
已删除
将门创投
9+阅读 · 2018年12月19日
【工业智能】风机齿轮箱故障诊断 — 基于振动信号
Top
微信扫码咨询专知VIP会员