谷歌云的自动重启机制失灵,导致网络和 ComputeEngine 宕机 93 分钟 !

2018 年 2 月 19 日 云头条

到头来还得靠活生生的人来救驾!

 

不妨说说还是人来得可靠的又一个案例:谷歌近日承认,2018年1月18日谷歌云的us-central1和europe-west3这两个可用区中的计算引擎(Compute Engine)停运了93分钟,根本原因出在了自动化失灵上。


谷歌将那次停运归咎于“网络编程失效”,表示Autoscaler(自动扩展器)服务因此没有正常运行,因而无法扩展实例组。该软件失效意味着,新的虚拟机或刚迁移的虚拟机无法与其他可用区中的虚拟机进行联系。



这个云计算市场的有力竞争者解释了这次宕机事件,透露“传播刚创建和迁移的虚拟机的谷歌计算引擎网络配置这项任务由两个组件来处理。第一个组件负责提供虚拟机、网络、防火墙规则和扩展决策的完整列表。”


“第二个组件为特定可用区中的部件提供更新数据流。”


在停运期间,第一个组件没有发送任何数据。缺少这种信息意味着,其他受影响的可用区的虚拟机无法搞清楚该如何联系其他虚拟机。Autoscaler服务也依赖来自失效的第一个组件的信息流来扩展实例组,由于没有收到来自该组件的更新信息,它无法为受影响的可用区做出扩展决策。


那么,为什么那第一个组件失效?谷歌称这个问题是“进程被卡壳了,结果没有为计算引擎控制面板发送更新数据”。换句话说,原来的进程挂起了。


本来这通常不是个问题,但“自动故障切换无法强制终止进程,需要手动故障切换才能恢复正常操作。”


是的,你明白了:自动化机制失灵了,最后还是人收拾了残局。


或者就像谷歌说的那样:“传播网络配置信息的任务出现停滞时,工程团队收到了警报,他们在故障后手动切换到替换任务,以恢复数据持久层的正常运行。”


谷歌郑重承诺,将来,“如果配置数据过时,它会停止虚拟机迁移”,并且“数据持久层会在长时间运行的进程期间重新解析对等体(peer),以便故障后切换到替换任务。”


听起来谷歌还是要走自动化的路子。所以老兄,切忌太过沾沾自喜了。


相关阅读:

中高端IT圈人群,欢迎加入!

谷歌云又宕机了两个小时

AWS vs Azure vs 谷歌云:市场份额、2017年纵览

云巨头财报集中营!亚马逊 vs 微软 vs 谷歌

谷歌云负载均衡系统瘫痪18个小时

谷歌云:未来十年的网络挑战

谷歌云 TPU 开放:「AlphaGo背后的芯片」进入商用化

谷歌在云计算平台上投资300亿美元了!

谷歌遇到了金丝雀问题:超时问题搞砸了云;集中式很危险

谷歌:路由器更新和数据中心自动化出了岔子,云服务中断2个小时

两个bug导致谷歌云全球性瘫痪


登录查看更多
0

相关内容

谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎。公司总部称为“Googleplex”,位于美国加州圣克拉拉县的芒廷维尤。业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于AdWords等广告服务。
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
数据库之架构:主备+分库?主从+读写分离?
架构文摘
8+阅读 · 2019年4月23日
去哪儿网开源DNS管理系统OpenDnsdb
运维帮
21+阅读 · 2019年1月22日
为什么分布式一定要有消息队列?
互联网架构师
4+阅读 · 2018年7月5日
Python3.7中一种懒加载的方式
Python程序员
3+阅读 · 2018年4月27日
TensorFlow神经网络教程
Python程序员
4+阅读 · 2017年12月4日
Arxiv
3+阅读 · 2018年4月5日
Arxiv
11+阅读 · 2018年1月11日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
相关资讯
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
数据库之架构:主备+分库?主从+读写分离?
架构文摘
8+阅读 · 2019年4月23日
去哪儿网开源DNS管理系统OpenDnsdb
运维帮
21+阅读 · 2019年1月22日
为什么分布式一定要有消息队列?
互联网架构师
4+阅读 · 2018年7月5日
Python3.7中一种懒加载的方式
Python程序员
3+阅读 · 2018年4月27日
TensorFlow神经网络教程
Python程序员
4+阅读 · 2017年12月4日
Top
微信扫码咨询专知VIP会员