项目名称: 基于在线机器学习的超级计算机主动容错技术研究

项目编号: No.61272141

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 蒋艳凰

作者单位: 中国人民解放军国防科学技术大学

项目金额: 81万元

中文摘要: 超级计算机正由当前的P级计算向E级计算迈进,专家预计E级计算系统的平均无故障时间仅有几十分钟,采用传统的被动容错方法因容错开销太大,将无法满足未来E级计算系统可用性的需求。主动容错利用故障预测技术提前对可能的故障进行处理,是提高系统可用性的重要途径。针对未来超级计算机系统面临的可靠性问题,本项目提出主被动容错相结合的容错策略,故障预测是该容错策略的关键。通过对各结点状态的实时获取与在线挖掘,获取各种故障的发生规律,然后利用学习的结果对系统故障进行预测,并对即将发生的故障实施低开销的主动容错,从而提高超级计算机的可用性。主要研究内容包括:故障在线学习与预测模型、系统状态数据的获取与预处理、故障在线学习方法、故障实时预测策略、故障规则获取技术、主动容错方法等。项目研究的目标是提高超级计算机的故障在线预测能力,降低系统容错开销,保证大规模并行应用的高效持续运行。

中文关键词: 在线学习;主动容错;高性能计算;故障预测;

英文摘要: Supercomputers are advancing from Petascale computing to Exascale computing, the MTBF of the future Exascale computing system will down to only several tens of minutes. Because of heavy overhead, traditional passive-fault-tolerant techniques will not satisfy the need for the usability of the future supercomputers any more. By applying of failure prediction, active fault tolerant can deal with system faults before the faults happen. It becomes an important way to improve the usability for the future supercomputers. This project combines active and passive fault tolerant techniques, where on-line failure prediction is the key part of the strategy. The state of each computing node is acquired in real time, and the rules of system faults can be analyzed and learned from the state data. Then the learned results can be applied to predict the faults of the supercomputer. For the predicted faults, active fault tolerant methods will be actived before the faults realy happen. This proposal concerns researches of learning and prediction model, state acquisition, on-line learning algorithms, failue prediction strategy, rules extraction for system fault, active fault tolerant methods etc. The project aims at improving the prediction accuracy for system fault and reducing the overhead of fault tolerant, so the efficiency and

英文关键词: on-line learning;active fault tolerant;high performance computing;failure prediction;

成为VIP会员查看完整内容
1

相关内容

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
14+阅读 · 2021年12月25日
【博士论文】集群系统中的网络流调度
专知会员服务
37+阅读 · 2021年12月7日
专知会员服务
29+阅读 · 2021年9月14日
专知会员服务
76+阅读 · 2021年7月31日
最新《计算机体系结构和系统的机器学习》综述论文
专知会员服务
51+阅读 · 2021年2月17日
基于机器学习的数据库技术综述
专知会员服务
53+阅读 · 2021年1月2日
专知会员服务
38+阅读 · 2020年12月20日
专知会员服务
78+阅读 · 2020年6月20日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
80+阅读 · 2020年5月23日
PolarDB 并行查询的前世今生
阿里技术
0+阅读 · 2022年2月17日
400倍加速, PolarDB HTAP实时数据分析技术解密
阿里技术
0+阅读 · 2021年10月25日
面向自动驾驶的边缘计算技术研究综述
专知
4+阅读 · 2021年5月3日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
【数字孪生】使用数字孪生体进行预测性维护
产业智能官
27+阅读 · 2019年7月22日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
【工业智能】电网故障诊断的智能技术
产业智能官
33+阅读 · 2018年5月28日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
102+阅读 · 2021年6月8日
Arxiv
32+阅读 · 2021年3月8日
Arxiv
22+阅读 · 2020年9月16日
小贴士
相关VIP内容
EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
14+阅读 · 2021年12月25日
【博士论文】集群系统中的网络流调度
专知会员服务
37+阅读 · 2021年12月7日
专知会员服务
29+阅读 · 2021年9月14日
专知会员服务
76+阅读 · 2021年7月31日
最新《计算机体系结构和系统的机器学习》综述论文
专知会员服务
51+阅读 · 2021年2月17日
基于机器学习的数据库技术综述
专知会员服务
53+阅读 · 2021年1月2日
专知会员服务
38+阅读 · 2020年12月20日
专知会员服务
78+阅读 · 2020年6月20日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
80+阅读 · 2020年5月23日
相关资讯
PolarDB 并行查询的前世今生
阿里技术
0+阅读 · 2022年2月17日
400倍加速, PolarDB HTAP实时数据分析技术解密
阿里技术
0+阅读 · 2021年10月25日
面向自动驾驶的边缘计算技术研究综述
专知
4+阅读 · 2021年5月3日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
【数字孪生】使用数字孪生体进行预测性维护
产业智能官
27+阅读 · 2019年7月22日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
【工业智能】电网故障诊断的智能技术
产业智能官
33+阅读 · 2018年5月28日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员