Heterogeneous systems are becoming increasingly prevalent. In order to exploit the rich compute resources of such systems, robust programming models are needed for application developers to seamlessly migrate legacy code from today's systems to tomorrow's. Over the past decade and more, directives have been established as one of the promising paths to tackle programmatic challenges on emerging systems. This work focuses on applying and demonstrating OpenMP offloading directives on five proxy applications. We observe that the performance varies widely from one compiler to the other; a crucial aspect of our work is reporting best practices to application developers who use OpenMP offloading compilers. While some issues can be worked around by the developer, there are other issues that must be reported to the compiler vendors. By restructuring OpenMP offloading directives, we gain an 18x speedup for the su3 proxy application on NERSC's Cori system when using the Clang compiler, and a 15.7x speedup by switching max reductions to add reductions in the laplace mini-app when using the Cray-llvm compiler on Cori.


翻译:为了利用这些系统的丰富计算资源,应用程序开发者需要强有力的编程模型,以便从今天的系统将遗留代码无缝地从今天的系统迁移到明天的系统。在过去的十年和更多的十年中,指令被确定为解决新兴系统方案挑战的有希望的途径之一。这项工作的重点是应用和演示关于五个代理应用程序的 OpenMP 卸载指令。我们观察到,从一个编译者到另一个代用软件的性能差异很大;我们工作的一个重要方面是向使用 OpenMP 卸载编译器的应用开发者报告最佳做法。虽然有些问题可以由开发者处理,但还有其他问题必须报告给编译者供应商。通过调整 OpenMP 卸载指令,我们在使用Clan 编译器时,为 NERSC Cori系统中的 su3 代用软件加速了18x加速度,在使用Clan 编译器时,通过转换最大减速来减少粘贴微型应用程序。使用Cray-llm 编译器时,我们得到了15.7x的加速。

0
下载
关闭预览

相关内容

【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
86+阅读 · 2020年5月11日
【阿里巴巴】 AI编译器,AI Compiler @ Alibaba,21页ppt
专知会员服务
44+阅读 · 2019年12月22日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
给DNN处理器跑个分 - 指标篇
StarryHeavensAbove
5+阅读 · 2017年7月9日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
相关VIP内容
相关资讯
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
给DNN处理器跑个分 - 指标篇
StarryHeavensAbove
5+阅读 · 2017年7月9日
Top
微信扫码咨询专知VIP会员