成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
AWS 日本区域因「服务器过热」导致一小部分的 EC2 停机
2019 年 8 月 26 日
云头条
AWS近日披露了
关于《Amazon EC2 以及 Amazon EBS 在东京区域 (AP-NORTHEAST-1) 的服务事件》的说明,以下为披露的原文,供各位参考。
针对在东京区域 (AP-NORTHEAST-1) 的服务中断事件,我们在这里提供更多信息。从 2019 年 8 月 23 日 11:36 AM CST (中国标准时间)开始,一小部分的 EC2 服务器在东京 (AP-NORTHEAST-1) 区域中单一可用区 (Availability Zone) 由于服务器过热造成停机。这导致在该可用区中受到影响的 EC2 实例与 EBS 卷效能降低。造成服务器过热的原因是控制系统故障,造成受影响的可用区的部分冷却系统失效。
受到影响的冷却系统已经在 2:21 PM CST (中国标准时间)修复,服务器温度也恢复到正常状态。在温度恢复正常后,EC2 实例的电源供应也已恢复。
在 5:30 PM CST (中国标准时间) ,大部分受影响的 EC2 实例与 EBS 卷都恢复正常工作,但仍有一小部分的实例与卷因为过热与断电暂时无法修复,因为底层硬件的故障,其中有些实例与卷需要更多的时间进行修复。
除了 EC2 实例与 EBS 卷受到影响外,在 12:21 PM CST (中国标准时间) EC2 RunInstances API 也受到了影响。
在受影响的可用区中,尝试启动新的 EC2 实例和和尝试使用 RunInstances API 的 "idempotency token" 功能 (一个允许用户启动新的实例时重试而不会产生多余的实例的功能)时,也有发生错误。
其他没有调用 "idempotency token"的 API 则可正常运作。
这个事件也导致透过 "idempotency token" 使用 Auto Scaling 时,无法启动新实例。
后台团队已经于 1:51 PM CST (中国标准时间) 修复了 “idempotency token” 与 Auto Scaling 相关的问题。
并且于 3:05 PM CST(中国标准时间)在受影响的可用区中,修复了EC2 控制面板的子系统,开启新实例的功能已经可以正常工作。
但在本事件中受到影响的卷所建立的新快照 (Snapshot) 依旧有一定的错误率。
本次事件是由于数据中心负责控制和优化冷却的控制系统故障所造成,这个控制系统在多个主机都有部署以实现高可用性,本控制系统中包含了允许与风扇、冷却器和温度传感器等硬件组件相互传递信号的第三方的程序,该程序可以直接或透过 Programmable Logic Controllers (PLC) 来与实际的硬件组件沟通。
在这事件发生前,数据中心的控制系统正在为了其中一台失效的控制主机进行备份处理,在备份处理中,控制系统要彼此互相交换信号 (例如:
冷却装置与温度传感器交换信号)以保持最新的信息。
由于该第三方程序中的一个错误,导致控制系统与组件过度的进行信息交换而造成控制系统无法回应。
我们的数据中心被设计成一旦控制系统发生错误,冷却系统就会自动进入最冷的模式,直到控制系统恢复正常为止,这样的设计对于我们大部分的数据中心都是有效的,但有一小部分的数据中心,由于冷却系统无法正确进入安全降温模式,而造成系统关机。
我们的数据中心加入了安全防护设计,在控制系统故障时,可以略过控制系统,直接进入净空模式将数据中心中的热空气迅速排出,但控制中心的团队在启动净空模式时发生了故障,所以数据中心的温度才会持续攀升,而服务器在到达温度上限后也开始自动关机了。
由于数据中心的控制系统故障,维运团队无法得知数据中心冷却系统的即时信息,在进行故障排除时,团队必须要对所有组件进行逐一的人工检查,才能让控制系统进入最冷模式,在这故障排除的过程中,发现控制空调组件的 PLC 控制器无法回应,控制器需要进行重置,是 PLC 控制器的错误造成了预设的冷却模式与净空模式无法正确动作,在 PLC 控制器被重置之后,该可用区数据中心的冷却系统就可以正常工作了,而数据中心的过高的温度也开始慢慢降低。
我们仍在与第三方供应商合作以了解导致控制系统和受影响的 PLC 无响应的错误和后续交互。
在此期间,我们已禁用在我们的控制系统上触发此错误的故障转移模式,以确保我们不会再次出现此问题。
我们还培训了我们的本地运营团队,以便在发生这种情况时快速识别和修复这种情况,并且我们相信,如果再次发生类似情况,无论什么原因,我们可以在客户受影响之前重置系统。
最后,我们正在努力修改我们控制受影响的空气处理单元的方式,以确保“清除模式”能够完全绕过PLC控制器。
这是我们在最新的数据中心设计中开始使用的一种方法,即使 PLC 无响应,我们也会更加确信“清除模式”将起作用。
在这次事件中,EC2 实例以及 EBS 储存在同一区域的其它的可用区没有受到影响。
同时在多个可用区上充分执行他们的应用程序的客户,在这次的事件中依然可以维持服务可用。
对于需要绝对高可用的客户,我们持续建议您使用高可用性的架构设计。
任何与应用程序相关的元件都应该采用这种容错设计。
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
亚马逊AWS
关注
8
由亚马逊云平台提供的一种信息服务。
【KDD2020】动态图的拉普拉斯变换点检测,Laplacian Change Point Detection for Dynamic Graphs
专知会员服务
37+阅读 · 2020年7月3日
【哈佛大学】美国对新冠肺炎COVID-19住院和ICU床位的需求:来自中国城市的教训
专知会员服务
28+阅读 · 2020年3月11日
谷歌推出量子机器学习框架TFQ-TensorFlow Quantum,一个可训练量子模型的机器学习框架
专知会员服务
33+阅读 · 2020年3月10日
【新墨西哥大学】深度学习的局限性和缺陷,10页pdf,Deep Learning Limitations and Flaws
专知会员服务
53+阅读 · 2020年2月5日
【新书】Java企业微服务,Enterprise Java Microservices,272页pdf
专知会员服务
51+阅读 · 2020年1月30日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
《动手学深度学习》(Dive into Deep Learning)PyTorch实现
专知会员服务
119+阅读 · 2019年12月31日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
93+阅读 · 2019年11月13日
《量子计算发展白皮书》(2019版)发布,40页PDF,赛迪智库编
专知会员服务
82+阅读 · 2019年11月8日
【ICCV 2019 Tutorial】Deraining and Adherent Raindrop Removal(排水和去除液滴),新加坡国立大学 Robby T. Tan副教授
专知会员服务
9+阅读 · 2019年10月30日
印度首次挑战登月告败,一步之遥≈多大差距?
人工智能学家
4+阅读 · 2019年9月7日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
计算机视觉在制造业应用的十大最新案例
极市平台
28+阅读 · 2019年8月25日
使用无服务器式的 Jenkins X:探索Prow,Jenkins X Pipeline Operator和Tekton
DevOps时代
5+阅读 · 2019年4月25日
日本研究确认世界首个iPS细胞异体移植手术安全性,但未大幅改善视力
医谷
4+阅读 · 2019年4月20日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
I2P - 适用于黑客的Android应用程序
黑白之道
30+阅读 · 2019年3月6日
【机器视觉】利用多台相机高速检测塑料比色皿、视觉检测系统提升汽车零件检测效果
产业智能官
4+阅读 · 2019年1月8日
【质量检测】机器视觉表面缺陷检测综述
产业智能官
30+阅读 · 2018年9月24日
Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算
大数据技术
5+阅读 · 2017年7月28日
Deep Co-Training for Semi-Supervised Image Segmentation
Arxiv
6+阅读 · 2019年10月30日
Confidence-based Graph Convolutional Networks for Semi-Supervised Learning
Arxiv
7+阅读 · 2019年2月12日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Domain Specific Approximation for Object Detection
Arxiv
5+阅读 · 2018年10月4日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Capsule Networks against Medical Imaging Data Challenges
Arxiv
3+阅读 · 2018年7月19日
Conditional Random Fields as Recurrent Neural Networks for 3D Medical Imaging Segmentation
Arxiv
8+阅读 · 2018年7月19日
Combination of Domain Knowledge and Deep Learning for Sentiment Analysis
Arxiv
3+阅读 · 2018年6月22日
Zero-Shot Detection
Arxiv
7+阅读 · 2018年3月19日
A Big Data Analysis Framework Using Apache Spark and Deep Learning
Arxiv
3+阅读 · 2017年11月25日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
亚马逊AWS
服务器
Amazon EC2
Amazon
词元分析器
事件
相关VIP内容
【KDD2020】动态图的拉普拉斯变换点检测,Laplacian Change Point Detection for Dynamic Graphs
专知会员服务
37+阅读 · 2020年7月3日
【哈佛大学】美国对新冠肺炎COVID-19住院和ICU床位的需求:来自中国城市的教训
专知会员服务
28+阅读 · 2020年3月11日
谷歌推出量子机器学习框架TFQ-TensorFlow Quantum,一个可训练量子模型的机器学习框架
专知会员服务
33+阅读 · 2020年3月10日
【新墨西哥大学】深度学习的局限性和缺陷,10页pdf,Deep Learning Limitations and Flaws
专知会员服务
53+阅读 · 2020年2月5日
【新书】Java企业微服务,Enterprise Java Microservices,272页pdf
专知会员服务
51+阅读 · 2020年1月30日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
《动手学深度学习》(Dive into Deep Learning)PyTorch实现
专知会员服务
119+阅读 · 2019年12月31日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
93+阅读 · 2019年11月13日
《量子计算发展白皮书》(2019版)发布,40页PDF,赛迪智库编
专知会员服务
82+阅读 · 2019年11月8日
【ICCV 2019 Tutorial】Deraining and Adherent Raindrop Removal(排水和去除液滴),新加坡国立大学 Robby T. Tan副教授
专知会员服务
9+阅读 · 2019年10月30日
热门VIP内容
开通专知VIP会员 享更多权益服务
【博士论文】ࣞ动态三维人体的隐式神经表示方法研究
大语言模型训练数据
【新书】动力系统的收缩理论,258页pdf
适应性异常检测在识别网络物理系统攻击中的应用:系统性文献综述
相关资讯
印度首次挑战登月告败,一步之遥≈多大差距?
人工智能学家
4+阅读 · 2019年9月7日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
计算机视觉在制造业应用的十大最新案例
极市平台
28+阅读 · 2019年8月25日
使用无服务器式的 Jenkins X:探索Prow,Jenkins X Pipeline Operator和Tekton
DevOps时代
5+阅读 · 2019年4月25日
日本研究确认世界首个iPS细胞异体移植手术安全性,但未大幅改善视力
医谷
4+阅读 · 2019年4月20日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
I2P - 适用于黑客的Android应用程序
黑白之道
30+阅读 · 2019年3月6日
【机器视觉】利用多台相机高速检测塑料比色皿、视觉检测系统提升汽车零件检测效果
产业智能官
4+阅读 · 2019年1月8日
【质量检测】机器视觉表面缺陷检测综述
产业智能官
30+阅读 · 2018年9月24日
Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算
大数据技术
5+阅读 · 2017年7月28日
相关论文
Deep Co-Training for Semi-Supervised Image Segmentation
Arxiv
6+阅读 · 2019年10月30日
Confidence-based Graph Convolutional Networks for Semi-Supervised Learning
Arxiv
7+阅读 · 2019年2月12日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Domain Specific Approximation for Object Detection
Arxiv
5+阅读 · 2018年10月4日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Capsule Networks against Medical Imaging Data Challenges
Arxiv
3+阅读 · 2018年7月19日
Conditional Random Fields as Recurrent Neural Networks for 3D Medical Imaging Segmentation
Arxiv
8+阅读 · 2018年7月19日
Combination of Domain Knowledge and Deep Learning for Sentiment Analysis
Arxiv
3+阅读 · 2018年6月22日
Zero-Shot Detection
Arxiv
7+阅读 · 2018年3月19日
A Big Data Analysis Framework Using Apache Spark and Deep Learning
Arxiv
3+阅读 · 2017年11月25日
大家都在搜
智能推荐
汽车智能化
大型语言模型
无人机蜂群
空战战术
洛克菲勒
无人艇
壁画
笛卡尔
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top