We present computational performance comparisons of gas-solid simulations performed on current CPU and GPU architectures using MFiX Exa, a CFD-DEM solver that leverages hybrid CPU+GPU parallelism. A representative fluidized bed simulation with varying particle numbers from 2 to 67 million is used to compare serial and parallel performance. A single GPU was observed to be about 10 times faster compared to a single CPU core. The use of 3 GPUs on a single compute node was observed to be 4x faster than using all 64 CPU cores. We also observed that using an error controlled adaptive time stepping scheme for particle advance provided a consistent 4x speed-up on both CPUs and GPUs. Weak scaling results indicate superior parallel efficiencies when using GPUs compared to CPUs for the problem sizes studied in this work.


翻译:我们用利用混合 CPU+GPU的CFD-DEM解析器MFIX Exa,对当前CPU和GPU结构上进行的气体-固体模拟进行计算性能比较。使用具有代表性的流化床模拟,其粒子数从200万至6 700万不等,用于比较序列和平行性能。观察到单个GPU比单个CPU核心要快10倍。在单个计算式计算式节点上使用3个GPU的速度比使用所有64个CPU核心要快4倍。我们还注意到,对粒子推进使用控制错误的适应性时间间隔方案,为CPU和GPU提供了一致的4x加速速度。微缩结果显示,在使用GPU与CPU相比,对于这项工作所研究的问题大小而言,使用GPU比CPU的效率更高。

0
下载
关闭预览

相关内容

迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
已删除
将门创投
4+阅读 · 2018年11月6日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
Arxiv
0+阅读 · 2021年10月13日
Deep Comparison: Relation Columns for Few-Shot Learning
VIP会员
相关VIP内容
相关资讯
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
已删除
将门创投
4+阅读 · 2018年11月6日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
Top
微信扫码咨询专知VIP会员