This paper describes how we successfully used the HPX programming model to port the DCA++ application on multiple architectures that include POWER9, x86, ARM v8, and NVIDIA GPUs. We describe the lessons we can learn from this experience as well as the benefits of enabling the HPX in the application to improve the CPU threading part of the code, which led to an overall 21% improvement across architectures. We also describe how we used HPX-APEX to raise the level of abstraction to understand performance issues and to identify tasking optimization opportunities in the code, and how these relate to CPU/GPU utilization counters, device memory allocation over time, and CPU kernel-level context switches on a given architecture.


翻译:本文描述了我们如何成功地使用HPX编程模型将DCA++应用程序移植到包括 POWER9, x86, ARM v8, 和 NVIDIA GPUs在内的多个结构上。 我们描述了我们可以从这一经验中汲取的教训,以及使HPX在应用中能够改进代码中CPU线部分的好处,这导致整个结构整体改善21%。 我们还描述了我们如何使用HPX-APEX来提高抽象度,以了解性能问题并确定代码中的任务优化机会,以及这些与CPU/GPU利用计数器、一段时间内设备内存分配和特定结构的CPU内核级上下文开关有何关系。

0
下载
关闭预览

相关内容

【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
86+阅读 · 2020年5月11日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
153+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
已删除
将门创投
3+阅读 · 2017年10月27日
Arxiv
0+阅读 · 2020年11月23日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2017年10月27日
Top
微信扫码咨询专知VIP会员