In recent years, the increasing complexity in scientific simulations and emerging demands for training heavy artificial intelligence models require massive and fast data accesses, which urges high-performance computing (HPC) platforms to equip with more advanced storage infrastructures such as solid-state disks (SSDs). While SSDs offer high-performance I/O, the reliability challenges faced by the HPC applications under the SSD-related failures remains unclear, in particular for failures resulting in data corruptions. The goal of this paper is to understand the impact of SSD-related faults on the behaviors of complex HPC applications. To this end, we propose FFIS, a FUSE-based fault injection framework that systematically introduces storage faults into the application layer to model the errors originated from SSDs. FFIS is able to plant different I/O related faults into the data returned from underlying file systems, which enables the investigation on the error resilience characteristics of the scientific file format. We demonstrate the use of FFIS with three representative real HPC applications, showing how each application reacts to the data corruptions, and provide insights on the error resilience of the widely adopted HDF5 file format for the HPC applications.


翻译:近年来,科学模拟日益复杂,对培训重人造情报模型的需求日益高涨,这就要求大量快速的数据存取,这促使高性能计算平台安装更先进的储存基础设施,如固态磁盘。虽然SSDS提供高性能I/O,但HPC应用在SSD相关故障下面临的可靠性挑战仍然不清楚,特别是造成数据腐败的失败。本文件的目的是了解SSD相关缺陷对复杂的高氯酸盐应用行为的影响。为此,我们提议FFIS,一个基于FUSE的错误注入框架,系统地将存储故障引入应用层,以模拟SSDs产生的错误。FFIS能够将不同的I/O相关故障植入从基本档案系统返回的数据,从而能够调查科学档案格式的错误复原力特性。我们用三种具有代表性的具有代表性的HPC应用程序演示了FFIS的使用情况,展示了每项应用如何应对数据腐败,并提供了广泛采用的HDF5文件格式对HPC应用的错误复原性。

0
下载
关闭预览

相关内容

【耶鲁】数据结构与编程技术,656页pdf
专知会员服务
55+阅读 · 2021年4月26日
【干货书】面向计算科学和工程的Python导论,167页pdf
专知会员服务
41+阅读 · 2021年4月7日
【2020新书】Web应用安全,331页pdf
专知会员服务
23+阅读 · 2020年10月24日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
340+阅读 · 2020年6月24日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | 中低难度国际会议信息6条
Call4Papers
3+阅读 · 2019年4月3日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Arxiv
0+阅读 · 2021年10月3日
Arxiv
28+阅读 · 2021年9月18日
VIP会员
相关VIP内容
【耶鲁】数据结构与编程技术,656页pdf
专知会员服务
55+阅读 · 2021年4月26日
【干货书】面向计算科学和工程的Python导论,167页pdf
专知会员服务
41+阅读 · 2021年4月7日
【2020新书】Web应用安全,331页pdf
专知会员服务
23+阅读 · 2020年10月24日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
340+阅读 · 2020年6月24日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
相关资讯
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | 中低难度国际会议信息6条
Call4Papers
3+阅读 · 2019年4月3日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Top
微信扫码咨询专知VIP会员