项目名称: 面向E级计算可靠性墙问题的关键技术研究

项目编号: No.61303068

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 王之元

作者单位: 中国人民解放军国防科学技术大学

项目金额: 23万元

中文摘要: 当前,高性能计算系统都采用并行处理方式显著地提高系统性能。随着系统规模的增长,尤其是增长到E级(百万万亿次)计算规模时,可靠性墙是其面临的巨大挑战性问题。因此,为了缓解或消除可靠性墙问题,本项目计划基于课题组在计算机系统结构、容错技术等方面的研究成果和技术积累,面向未来E级计算的高效能需求,研究可靠性墙瓶颈模型和理论,以及轻量级检查点/恢复、基于硬件冗余的可扩展容错和基于应用特征的容错技术,并运用软硬件验证平台对上述模型、理论和技术进行验证,以实现可扩展的系统容错,保证未来E级计算系统的高效持续运行。本项目计划发表高水平学术论文8篇以上,参加国际学术会议2人次以上,培养研究生4-6人。

中文关键词: 可靠性墙;容错;错误传播;故障预测;自治容错忆阻器

英文摘要: Currently, system performance of high-performance computers is increased all by parallel processing. With the growth of system size, especially when the computation scale reaches Exascale levels, reliability wall constitutes the great challenge for the high-performance computers. This project is based on the research and technology accumulation of our team on computer architecture and fault tolerance, and to meet the need of high efficiency Exascale computing. To alleviate or remove the reliability wall problem, this project aims to research the model and theory of reliability wall, lightweight checkpoint/restoration, scalable fault tolerance mechanism based on hardware redundancy and fault tolerance mechanism based on application features. In addition, this project will verify above mentioned model, theory and techniques using hardware/software verification platform, to achieve scalable fault tolerance technology and guarantee the efficient operation of Exa-scale computing systems. This project expects to publish more than 8 high-level academic articles, attend international conference more than 2 times, and train 4-6 graduate students.

英文关键词: Reliability Wall;Fault Tolerance;Error Propagation;Failure Prediction;Self -Fault Tolerance of Memristor

成为VIP会员查看完整内容
0

相关内容

6G物理层AI关键技术白皮书(2022)
专知会员服务
42+阅读 · 2022年3月21日
【博士论文】分形计算系统
专知会员服务
33+阅读 · 2021年12月9日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
面向大数据处理框架的JVM优化技术综述
专知会员服务
16+阅读 · 2021年11月27日
专知会员服务
34+阅读 · 2021年10月17日
专知会员服务
18+阅读 · 2021年6月29日
专知会员服务
14+阅读 · 2021年3月26日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
【博士论文】分形计算系统
专知
2+阅读 · 2021年12月9日
【北大】知识图谱的关键技术及其智能应用
专知
112+阅读 · 2019年9月19日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月18日
小贴士
相关VIP内容
6G物理层AI关键技术白皮书(2022)
专知会员服务
42+阅读 · 2022年3月21日
【博士论文】分形计算系统
专知会员服务
33+阅读 · 2021年12月9日
【博士论文】大数据相似查询关键技术研究
专知会员服务
23+阅读 · 2021年12月2日
面向大数据处理框架的JVM优化技术综述
专知会员服务
16+阅读 · 2021年11月27日
专知会员服务
34+阅读 · 2021年10月17日
专知会员服务
18+阅读 · 2021年6月29日
专知会员服务
14+阅读 · 2021年3月26日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员