项目名称: 面向大规模高性能计算的低开销回卷恢复容错技术

项目编号: No.61272401

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 杨金民

作者单位: 湖南大学

项目金额: 78万元

中文摘要: 高性能计算系统通过扩大计算结点规模来提升性能,带来了故障随结点规模呈指数增长的可靠性问题,要求有与之相应的容错支持。回卷恢复容错技术基于时间冗余来容错,无须结点冗余,适应了高性能计算的需求。但现有方法在设置进程检查点时单一地采取映像方式保存状态数据,故障恢复时以串行方式重演日志消息,其开销随系统规模增大而剧增。本项目研究进程检查点和进程重生的非对等特征,提出基于状态区分的进程检查点技术, 通过程序语义建模来解析进程状态的构成,采用对象特征值来置换其内存映像,以此减少检查点数据量,降低检查点开销;研究进程前滚和进程正常执行的非等同特征,提出基于并发重演的进程快速前滚技术,通过消息作用域估算来判定消息间的独立性,采用结果日志来解除消息间的依赖关系,以此提升消息重演的并发性,降低故障恢复开销。实现基于以上技术的容错支持库,解决开销随系统规模增大而剧增问题,为大规模高性能计算提供低开销的容错支持。

中文关键词: 高性能计算;回卷恢复;时间开销;状态区分;并发重演

英文摘要: More and more computing nodes are integrated into high performance computers to improve their performance, resulting in the problem that faults increase exponentially with the scale of nodes. In such a situation, fault-tolerance is necessary for system dependability. Unfortunately, fault tolerance often aggravates system in complexity by node redundancy, provoking more faults. Rollback recovery is a trustworthy and popular approach to fault tolerance in high performance computing, as it doesn't need node redundancy by employing time redundancy strategy. However, existing rollback recovery schemes show that their time overheads increase sharply with the scale of nodes, as they save process state at a checkpoint in a sole manner of memory mapping, and replay the logged messages in sequential pattern during the fault recovery. This project exploits the non-equivalency between process checkpoint and process renaissance in terms of times,and then proposes the technology of process checkpoint based on state distinctions. This technology will identify object components in a process by semantics modeling of program and data, and distinguish them into environment state and application state, then resolve the eigenvalue of environment state to displace it. The technology should decrease the size of checkpoint, leading to

英文关键词: high performance computing;rollback recovery;time overhead;state distinguishing;oncurrent replaying

成为VIP会员查看完整内容
0

相关内容

【博士论文】分形计算系统
专知会员服务
33+阅读 · 2021年12月9日
面向大数据处理框架的JVM优化技术综述
专知会员服务
16+阅读 · 2021年11月27日
专知会员服务
22+阅读 · 2021年7月15日
专知会员服务
24+阅读 · 2021年7月8日
专知会员服务
22+阅读 · 2021年6月23日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
vivo AI计算平台kubernetes集群弹性伸缩实践
AI前线
0+阅读 · 2021年12月27日
流计算引擎数据一致性的本质
阿里技术
0+阅读 · 2021年10月13日
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
小贴士
相关VIP内容
【博士论文】分形计算系统
专知会员服务
33+阅读 · 2021年12月9日
面向大数据处理框架的JVM优化技术综述
专知会员服务
16+阅读 · 2021年11月27日
专知会员服务
22+阅读 · 2021年7月15日
专知会员服务
24+阅读 · 2021年7月8日
专知会员服务
22+阅读 · 2021年6月23日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员