Although the matrix multiplication plays a vital role in computational linear algebra, there are few efficient solutions for matrix multiplication of the near-sparse matrices. The Sparse Approximate Matrix Multiply (SpAMM) is one of the algorithms to fill the performance gap neglected by traditional optimizations for dense/sparse matrix multiplication. However, existing SpAMM algorithms fail to exploit the performance potential of GPUs for acceleration. In this paper, we present cuSpAMM, the first parallel SpAMM algorithm optimized for multiple GPUs. Several performance optimizations have been proposed, including algorithm re-design to adapt to the thread parallelism, blocking strategies for memory access optimization, and the acceleration with the tensor core. In addition, we scale cuSpAMM to run on multiple GPUs with an effective load balance scheme. We evaluate cuSpAMM on both synthesized and real-world datasets on multiple GPUs. The experiment results show that cuSpAMM achieves significant performance speedup compared to vendor optimized cuBLAS and cuSPARSE libraries.


翻译:虽然矩阵乘法在计算线性代数中起着关键作用,但对于接近偏差矩阵的矩阵乘法,几乎没有什么有效的解决办法。 粗略近距矩阵乘法( SpAMM) 是填补因传统优化而忽略的功能差距的算法之一, 用于密度/ 偏差矩阵乘法。 但是, 现有的 SpAM 算法未能利用 GPU 的性能潜力加速。 在本文中, 我们介绍了 CuSpAM, 这是为多个 GPU 优化的第一个平行的 SpAM 算法。 已经提出了几项性能优化, 包括用于适应线性平行的算法设计、 阻断存储访问优化战略, 以及加固核心加速等。 此外, 我们用有效的负载平衡方案将 cuspAM 调整成多个 GPUPS 。 我们评估了多个 GPUPU 的合成和真实世界数据集的 cuSpAM 。 实验结果表明, CospAMM 与供应商优化的 CUBLAS 和 cuPARSE 库室相比, 取得了显著的业绩加速。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
专知会员服务
42+阅读 · 2020年12月18日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
元学习与图神经网络逻辑推导,55页ppt
专知会员服务
128+阅读 · 2020年4月25日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
已删除
将门创投
4+阅读 · 2017年11月1日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
Arxiv
0+阅读 · 2021年5月18日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
已删除
将门创投
4+阅读 · 2017年11月1日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
Top
微信扫码咨询专知VIP会员