Over the last decade, most of the increase in computing power has been gained by advances in accelerated many-core architectures, mainly in the form of GPGPUs. While accelerators achieve phenomenal performances in various computing tasks, their utilization requires code adaptations and transformations. Thus, OpenMP, the most common standard for multi-threading in scientific computing applications, introduced offloading capabilities between host (CPUs) and accelerators since v4.0, with increasing support in the successive v4.5, v5.0, v5.1, and the latest v5.2 versions. Recently, two state-of-the-art GPUs - the Intel Ponte Vecchio Max 1100 and the NVIDIA A100 GPUs - were released to the market, with the oneAPI and GNU LLVM-backed compilation for offloading, correspondingly. In this work, we present early performance results of OpenMP offloading capabilities to these devices while specifically analyzing the potability of advanced directives (using SOLLVE's OMPVV test suite) and the scalability of the hardware in representative scientific mini-app (the LULESH benchmark). Our results show that the vast majority of the offloading directives in v4.5 and 5.0 are supported in the latest oneAPI and GNU compilers; however, the support in v5.1 and v5.2 is still lacking. From the performance perspective, we found that PVC is up to 37% better than the A100 on the LULESH benchmark, presenting better performance in computing and data movements.


翻译:在过去十年中,大多数计算能力的增长都来自于加速的多核体系结构的进步,主要以GPGPU的形式出现。虽然加速器在各种计算任务中取得了卓越的性能,但它们的利用需要代码适应和转换。因此,OpenMP是科学计算应用程序中最常见的多线程标准,自v4.0以来引入了主机(CPU)和加速器之间的离线功能,在后续的v4.5、v5.0、v5.1和最新的v5.2版本中得到了越来越多的支持。最近,两种最先进的GPU——英特尔Pont Vecchio Max 1100和NVIDIA A100 GPU——发布到市场上,相应地实现了oneAPI和GNU LLVM支持的离线编译。在这项工作中,我们展示了OpenMP离线功能在这些设备上的早期性能结果,同时特别分析高级指令的可移植性(使用SOLLVE的OMPVV测试套件)以及代表性科学微型应用程序(LULESH基准测试)的硬件可扩展性。我们的结果显示,在v4.5和5.0中,绝大多数离线指令都得到了最新oneAPI和GNU编译器的支持;然而,在v5.1和v5.2中的支持仍然不足。从性能角度看,我们发现PVC在LULESH基准测试中比A100高出37%,在计算和数据移动方面表现更好。

0
下载
关闭预览

相关内容

【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
19+阅读 · 2022年7月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【泡泡一分钟】在CPU上进行实时无监督单目深度估计
泡泡机器人SLAM
17+阅读 · 2019年5月10日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月25日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
126+阅读 · 2020年9月6日
Arxiv
35+阅读 · 2019年11月7日
VIP会员
相关VIP内容
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
19+阅读 · 2022年7月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【泡泡一分钟】在CPU上进行实时无监督单目深度估计
泡泡机器人SLAM
17+阅读 · 2019年5月10日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员