We present new results on the strong parallel scaling for the OpenACC-accelerated implementation of the high-order spectral element fluid dynamics solver Nek5000. The test case considered consists of a direct numerical simulation of fully-developed turbulent flow in a straight pipe, at two different Reynolds numbers $Re_\tau=360$ and $Re_\tau=550$, based on friction velocity and pipe radius. The strong scaling is tested on several GPU-enabled HPC systems, including the Swiss Piz Daint system, TACC's Longhorn, J\"ulich's JUWELS Booster, and Berzelius in Sweden. The performance results show that speed-up between 3-5 can be achieved using the GPU accelerated version compared with the CPU version on these different systems. The run-time for 20 timesteps reduces from 43.5 to 13.2 seconds with increasing the number of GPUs from 64 to 512 for $Re_\tau=550$ case on JUWELS Booster system. This illustrates the GPU accelerated version the potential for high throughput. At the same time, the strong scaling limit is significantly larger for GPUs, at about $2000-5000$ elements per rank; compared to about $50-100$ for a CPU-rank.


翻译:我们根据摩擦速度和管道半径,对开放ACC加速实施高顺序光谱元素流体动态求解器Nek5000的强大平行缩放提出了新的结果。所考虑的测试案例包括直接数字模拟一个直管中完全开发的动荡流,在两个不同的Reynolds数字(Re ⁇ tau=360美元和$Re ⁇ tau=550美元)下,根据摩擦速度和管道半径,两个不同的Reynolds数字为Re ⁇ tau=360美元和$Re ⁇ tau=550美元。强大的缩放在几个GPU驱动的HPC系统中进行测试,包括瑞士Piz Daint系统、Tacc's Longhorn、J\“ulich's JUWELS Boster和瑞典的Berzelius。绩效结果表明,3-5之间的加速流可以通过GPU加速版本实现。20个时段的运行时间从43.5秒减少到13.2秒,将GPU从64美元增加到512美元,JUWELS Booster系统中的550美元案例。这显示了GPU加速版的高速提值潜力。相比之下,每500美元的大幅缩定值为500美元。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | COLT 2019等国际会议信息9条
Call4Papers
6+阅读 · 2018年9月21日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
35+阅读 · 2019年11月7日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关资讯
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | COLT 2019等国际会议信息9条
Call4Papers
6+阅读 · 2018年9月21日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员