项目名称: GPU通用计算系统检查点方法研究

项目编号: No.61272190

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 陈浩

作者单位: 湖南大学

项目金额: 81万元

中文摘要: 本项目以GPU图形处理器在通用计算系统中的应用为背景,以提高GPU通用计算系统的可靠性为切入点,探索GPU程序高效检查点技术的实现方法与理论基础,使之满足GPU通用计算系统在高性能计算和超级计算中的理论和应用需要。以鲁棒性、高性能、透明性、灵活性为设计原则,将传统CPU检查点技术与GPU的体系结构特征结合起来,系统性地研究GPU核内检查点机制中的主要过程和关键问题,将增量存储、代码静态分析等技术融入到GPU核内状态的读取、保存和恢复过程中;对GPU硬件状态进行分析和建模,提取主要的特征参数,基于现有GPU通用计算软件开发框架,分析GPU程序内部语义,构建用户透明的检查点技术;研究GPU检查点技术在不同应用场景的应用,如虚拟机环境中的GPU计算任务在线迁移、GPU程序调试支持和自动错误诊断。

中文关键词: GPU通用计算;检查点;高性能计算;图计算;虚拟化

英文摘要: This project aims to improve the dependability of general purpose GPU (GPGPU) computing systems such as high performance computing and supercomputers, by exploring theoretical foundations and implementation techniques of high-efficient checkpointing mechanisms for GPGPU systems. This proposal consists of three major contributions. First, based on four design principles such as robustness, high-performance, transparency, and flexibility, we propose a novel checkpoint-inside-the-kernel mechanism for GPU kernels, which combines several techniques such as incremental storage and static analysis to aid the retrieval, record and recovery of GPU runtime states, and can be easily integrated into a conventional CPU-based checkpointing system. Second, based on existing GPGPU development frameworks, we propose to model GPU hardware intricacies by leveraging the inherent semantics of GPU programs, which has important implications for building a transparent GPU checkpointing system. Third, we further explore potential applications of GPU checkpointing mechanism in three typical scenarios: online task migration in virtual machines, debugging support and automatic failure diagnosis of GPU programs.

英文关键词: GPGPU;checkpointing;high performance computing;graph computing;virtualization

成为VIP会员查看完整内容
1

相关内容

2021图灵奖Jack Dongarra经典书《高性能并行计算》,852页pdf
专知会员服务
109+阅读 · 2022年3月31日
高性能计算专家Jack Dongarra获2021年图灵奖
专知会员服务
16+阅读 · 2022年3月30日
【2021新书】面向对象的Python编程,418页pdf
专知会员服务
70+阅读 · 2021年12月15日
【博士论文】分形计算系统
专知会员服务
33+阅读 · 2021年12月9日
专知会员服务
22+阅读 · 2021年7月15日
【干货书】面向计算科学和工程的Python导论,167页pdf
专知会员服务
41+阅读 · 2021年4月7日
应用知识图谱的推荐方法与系统
专知会员服务
115+阅读 · 2020年11月23日
FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
Python导论,476页pdf,现代Python计算
专知会员服务
260+阅读 · 2020年5月17日
对比,还原真实的GPU池化
CSDN
1+阅读 · 2022年4月13日
系统解读CPU 隔离:简介
InfoQ
0+阅读 · 2022年4月6日
CUDA 编程上手指南(一):CUDA C 编程及 GPU 基本知识
极市平台
6+阅读 · 2021年12月17日
【博士论文】分形计算系统
专知
2+阅读 · 2021年12月9日
AI 框架部署方案之模型转换
极市平台
2+阅读 · 2021年11月2日
流计算引擎数据一致性的本质
阿里技术
0+阅读 · 2021年10月13日
图计算加速架构综述
专知
0+阅读 · 2021年4月5日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
21+阅读 · 2019年3月25日
小贴士
相关VIP内容
2021图灵奖Jack Dongarra经典书《高性能并行计算》,852页pdf
专知会员服务
109+阅读 · 2022年3月31日
高性能计算专家Jack Dongarra获2021年图灵奖
专知会员服务
16+阅读 · 2022年3月30日
【2021新书】面向对象的Python编程,418页pdf
专知会员服务
70+阅读 · 2021年12月15日
【博士论文】分形计算系统
专知会员服务
33+阅读 · 2021年12月9日
专知会员服务
22+阅读 · 2021年7月15日
【干货书】面向计算科学和工程的Python导论,167页pdf
专知会员服务
41+阅读 · 2021年4月7日
应用知识图谱的推荐方法与系统
专知会员服务
115+阅读 · 2020年11月23日
FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
Python导论,476页pdf,现代Python计算
专知会员服务
260+阅读 · 2020年5月17日
相关资讯
对比,还原真实的GPU池化
CSDN
1+阅读 · 2022年4月13日
系统解读CPU 隔离:简介
InfoQ
0+阅读 · 2022年4月6日
CUDA 编程上手指南(一):CUDA C 编程及 GPU 基本知识
极市平台
6+阅读 · 2021年12月17日
【博士论文】分形计算系统
专知
2+阅读 · 2021年12月9日
AI 框架部署方案之模型转换
极市平台
2+阅读 · 2021年11月2日
流计算引擎数据一致性的本质
阿里技术
0+阅读 · 2021年10月13日
图计算加速架构综述
专知
0+阅读 · 2021年4月5日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员