Designing efficient and scalable sparse linear algebra kernels on modern multi-GPU based HPC systems is a daunting task due to significant irregular memory references and workload imbalance across the GPUs. This is particularly the case for Sparse Triangular Solver (SpTRSV) which introduces additional two-dimensional computation dependencies among subsequent computation steps. Dependency information is exchanged and shared among GPUs, thus warrant for efficient memory allocation, data partitioning, and workload distribution as well as fine-grained communication and synchronization support. In this work, we demonstrate that directly adopting unified memory can adversely affect the performance of SpTRSV on multi-GPU architectures, despite linking via fast interconnect like NVLinks and NVSwitches. Alternatively, we employ the latest NVSHMEM technology based on Partitioned Global Address Space programming model to enable efficient fine-grained communication and drastic synchronization overhead reduction. Furthermore, to handle workload imbalance, we propose a malleable task-pool execution model which can further enhance the utilization of GPUs. By applying these techniques, our experiments on the NVIDIA multi-GPU supernode V100-DGX-1 and DGX-2 systems demonstrate that our design can achieve on average 3.53x (up to 9.86x) speedup on a DGX-1 system and 3.66x (up to 9.64x) speedup on a DGX-2 system with 4-GPUs over the Unified-Memory design. The comprehensive sensitivity and scalability studies also show that the proposed zero-copy SpTRSV is able to fully utilize the computing and communication resources of the multi-GPU system.


翻译:在现代基于多GPU的HPC系统上设计高效且可缩放的线性直升升代数内核内核,是一项艰巨的任务,因为GPU之间有大量不规则的内存参考和工作量不平衡,特别是在Sprassy三角解答器(SpTRSV)的情况下,它使随后的计算步骤具有额外的二维计算依赖性。在GPU之间交换和共享依赖性信息,从而可以有效地分配内存、数据分割和工作量分配,以及精巧地拼凑通信和同步度支持。在这项工作中,我们证明直接采用统一记忆会严重影响SpTRSV在多GPU结构上的性能。尽管通过快速互联(如NVLinks和NVSwSwitches等)连接,我们利用最新的 NVSHMEM技术,以节化全球地址空间编程模型为基础,实现高效的微缩定位通信和快速同步的减少。此外,我们提议一个可变动性任务组合执行模式,可以进一步加强GPUS-3.S-2的利用率。通过应用这些技术,我们在VDG-DG-DG-DS-VX设计系统上进行测试的实验,可以显示VDG-DG-DG-DG-DG-DG-DG-DG-DVx平均的系统设计S-DVx的系统,在VT-D-D-D-D-D-D-D-VT-VT-D-D-VT-Vx系统上显示一个可全面的自动的自动的系统。

0
下载
关闭预览

相关内容

【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
已删除
将门创投
3+阅读 · 2019年1月29日
Arxiv
1+阅读 · 2021年2月14日
Arxiv
0+阅读 · 2021年2月11日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
已删除
将门创投
3+阅读 · 2019年1月29日
Top
微信扫码咨询专知VIP会员