项目名称: 面向百万万亿次高性能计算系统的容错计算模型研究

项目编号: No.61272142

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 卢凯

作者单位: 中国人民解放军国防科学技术大学

项目金额: 72万元

中文摘要: 现有并行计算模型不具备容错计算能力,需要借助检查点等外部容错技术才能实现持续计算,性能开销大,系统有效利用率低,无法满足未来百万万亿次高性能计算系统的运行需求。 本项目基于新型非易失存储技术(NVRAM),面向未来百万万亿次高性能计算容错需求,研究新的具备容错计算能力的并行计算模型。该模型改变了传统并行计算模型中依赖操作系统提供应用运行环境的设计思想,采取了系统服务和运行环境相分离的运行模式。通过研究基于NVRAM的分类存储模型和管理策略,设计新的上下文自包含的和支持原地恢复的非易失容错进程模型,新容错并行计算模型可以将用户应用的完整运行状态实时驻留在NVRAM中。并通过研究支持并行稳态运行的新型执行方式,支持用户应用原地快速恢复和持续执行。容错并行计算模型可有效克服传统检查点容错技术性能开销大,系统利用率低等问题,满足未来百万万亿次高性能计算的容错需求。

中文关键词: 非易失存储器件;存储管理;稳态执行;容错;进程模型

英文摘要: In Exa-scale High Performance Computer system design, the reliability of whole system is a serious problem we have to face, because researchers predict that the MBTF of Exa-scale HPC systems will be less than half an hour. Currentyl, how to provide a highly availble computing environment presents a great chanllenge. Due to the current parallel computing model lack of fault-tolerant ability, we have to rely on external fault-tolerant teniques, such as Checkpoint/Restart techniques, to improve the reliability of HPC systems. Checkpoint/Restart techniques record the running states of parallel application periodly, and resumes the execution from checkpoint file after the HPC system fails. However, with the MTBF of HPC system decreasing, the large overhead of checkpoint/Restart will induce the utility of Exa-scale HPC systems to be very low. Thus, Checkpoint/Restart techniques can't meet the requirements of Exa-scale HPC systems. In this project, we propose a new fault-tolerant parallel computing model for the Exa-scale HPC system. In the new fault-tolerant computing model, we takes the advantage the emerging non-volatile memory technique(NVRAM) to provide sustainable memory storage support. The new fault-tolerant computing model:1) decouples the process from operating system and redesigns the OS only to be servic

英文关键词: Non-volatile memory;memory management;Fault tolerance;Process model;

成为VIP会员查看完整内容
0

相关内容

2021图灵奖Jack Dongarra经典书《高性能并行计算》,852页pdf
专知会员服务
110+阅读 · 2022年3月31日
高性能计算专家Jack Dongarra获2021年图灵奖
专知会员服务
17+阅读 · 2022年3月30日
【博士论文】分形计算系统
专知会员服务
34+阅读 · 2021年12月9日
面向大数据处理框架的JVM优化技术综述
专知会员服务
17+阅读 · 2021年11月27日
【干货书】面向计算科学和工程的Python导论,167页pdf
专知会员服务
42+阅读 · 2021年4月7日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
59+阅读 · 2020年7月13日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
CUDA高性能计算经典问题:归约
极市平台
1+阅读 · 2022年1月13日
如何降低云计算基础设施的复杂度?
InfoQ
0+阅读 · 2022年1月4日
【博士论文】分形计算系统
专知
2+阅读 · 2021年12月9日
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
社区分享|如何让模型在生产环境上推理得更快
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
13+阅读 · 2018年1月20日
小贴士
相关VIP内容
2021图灵奖Jack Dongarra经典书《高性能并行计算》,852页pdf
专知会员服务
110+阅读 · 2022年3月31日
高性能计算专家Jack Dongarra获2021年图灵奖
专知会员服务
17+阅读 · 2022年3月30日
【博士论文】分形计算系统
专知会员服务
34+阅读 · 2021年12月9日
面向大数据处理框架的JVM优化技术综述
专知会员服务
17+阅读 · 2021年11月27日
【干货书】面向计算科学和工程的Python导论,167页pdf
专知会员服务
42+阅读 · 2021年4月7日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
59+阅读 · 2020年7月13日
相关资讯
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
CUDA高性能计算经典问题:归约
极市平台
1+阅读 · 2022年1月13日
如何降低云计算基础设施的复杂度?
InfoQ
0+阅读 · 2022年1月4日
【博士论文】分形计算系统
专知
2+阅读 · 2021年12月9日
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
社区分享|如何让模型在生产环境上推理得更快
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员