项目名称: 针对GPU的高效并行任务执行设计研究

项目编号: No.61300005

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 梁云

作者单位: 北京大学

项目金额: 23万元

中文摘要: 现代的图形处理器(GPU)已成为广泛使用的高性能计算平台。GPU对多种不同的应用都有着巨大的计算潜力。随着越来越多的通用应用程序被移植到GPU上执行,这也加剧了GPU资源的竞争,因此GPU资源的有效利用是提高系统性能的关键。这也为我们提供了并行任务执行的机会 - - - 多个任务并行执行共享GPU资源。 为了支持高效的并行任务执行, 我们打算提出一个系统的软硬件解决方案。我们首先寻求构建不同的硬件资源共享机制以支持不同的设计权衡。然后,我们提出了一个全新的运行时软件架构。该软件架构允许并行任务执行, 并且会基于任务的不同需要分配GPU资源。我们的软件架构具有以下特点 1)精确的性能分析模型 2)高效的任务调度算法 3)缓存感知的设计和优化。这个项目所提出的技术是对现有的GPU结构的重要补充,并对未来的GPU设计有着重要意义。所提出的并行任务执行技术可以显著的提高系统的整体性能和能源利用效率。

中文关键词: 多任务执行;缓存;寄存器;性能优化;资源利用率

英文摘要: Modern graphics processing units (GPUs) have emerged as widely used performance computing platforms. GPUs have tremendous computing potential for a variety of applications. As more and more general purpose applications are mapped to GPUs and compete for accesses to GPU resources, efficient utilization of the GPU resources is critical to system performance. This opens up the opportunities for efficient concurrent kernel execution - - - multiple kernels execute and share resource simultaneously. In this proposal, we propose a systematic software-hardware solution for efficient concurrent kernel execution. We seek to develop different hardware supported resource sharing mechanism with different design tradeoffs. Then, we will propose a novel runtime software framework. The proposed software framework will allow efficient concurrent kernel execution by allocating the GPU resources based on kernel's needs. In order to achieve this goal, we will feature the software framework with the followings: 1) accurate analytical performance model 2) efficient online kernel scheduler 3) cache-aware design and optimization. In summary, the proposed techniques are complementary to the existing GPUs and useful for the future GPUs. The proposed concurrent kernel execution techniques can improve the overall system performance and

英文关键词: multi-tasking;cache;register;performance optimization;resource utilization

成为VIP会员查看完整内容
0

相关内容

【博士论文】分形计算系统
专知会员服务
32+阅读 · 2021年12月9日
专知会员服务
92+阅读 · 2021年5月25日
最新《计算机体系结构和系统的机器学习》综述论文
专知会员服务
51+阅读 · 2021年2月17日
高效医疗图像分析的统一表示
专知会员服务
33+阅读 · 2020年6月23日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
28+阅读 · 2020年3月5日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
对比,还原真实的GPU池化
CSDN
1+阅读 · 2022年4月13日
如何降低云计算基础设施的复杂度?
InfoQ
0+阅读 · 2022年1月4日
【博士论文】基于冲量的加速优化算法
专知
7+阅读 · 2021年11月29日
TurboTransformers开源技术文档
微信AI
0+阅读 · 2020年4月24日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
小贴士
相关VIP内容
【博士论文】分形计算系统
专知会员服务
32+阅读 · 2021年12月9日
专知会员服务
92+阅读 · 2021年5月25日
最新《计算机体系结构和系统的机器学习》综述论文
专知会员服务
51+阅读 · 2021年2月17日
高效医疗图像分析的统一表示
专知会员服务
33+阅读 · 2020年6月23日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
28+阅读 · 2020年3月5日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
相关资讯
对比,还原真实的GPU池化
CSDN
1+阅读 · 2022年4月13日
如何降低云计算基础设施的复杂度?
InfoQ
0+阅读 · 2022年1月4日
【博士论文】基于冲量的加速优化算法
专知
7+阅读 · 2021年11月29日
TurboTransformers开源技术文档
微信AI
0+阅读 · 2020年4月24日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员