A novel fault-tolerant computation technique based on array Belief Propagation (BP)-decodable XOR (BP-XOR) codes is proposed for distributed matrix-matrix multiplication. The proposed scheme is shown to be configurable and suited for modern hierarchical compute architectures such as Graphical Processing Units (GPUs) equipped with multiple nodes, whereby each has many small independent processing units with increased core-to-core communications. The proposed scheme is shown to outperform a few of the well--known earlier strategies in terms of total end-to-end execution time while in presence of slow nodes, called $stragglers$. This performance advantage is due to the careful design of array codes which distributes the encoding operation over the cluster (slave) nodes at the expense of increased master-slave communication. An interesting trade-off between end-to-end latency and total communication cost is precisely described. In addition, to be able to address an identified problem of scaling stragglers, an asymptotic version of array BP-XOR codes based on projection geometry is proposed at the expense of some computation overhead. A thorough latency analysis is conducted for all schemes to demonstrate that the proposed scheme achieves order-optimal computation in both the sublinear as well as the linear regimes in the size of the computed product from an end-to-end delay perspective.


翻译:在分布式矩阵矩阵矩阵矩阵配法的倍增中,提议了一种基于分数信仰促进(BP)可分XOR(BP-XOR)代码的新颖的容错计算技术。拟议的方案显示是可配置的,适合现代等级的计算结构,如配有多个节点的图形处理器(GPUs),每个单元都有许多小型的独立处理器,核心至核心通信增加,核心至核心通信增加。拟议的方案显示在总端至核心通信量方面优于几个已知的早期战略。在总端至终端执行时间方面优于少数已知的战略,同时有缓慢的节点,称为$stragglers。这一绩效优势是由于精心设计了将编码在组(slave)节点上分配编码的现代分解结构,而牺牲了更多的主控锁通信量。端对端至端连接和通信总成本之间的一个有趣的交换。此外,为了能够解决一个已查明的问题,即从预测的端到端端到端执行时间的端执行时间,即调BP-XOR计算代码的阵列的阵列代码版本,这个功能的功能是用来在投算中进行彻底的计算。提议在计算中,在计算中进行所有最后的机的计算中进行一个成本的计算方法的计算,在成本的计算中进行一个成本的计算,在成本上的计算中进行成本上的计算,在计算中进行一项费用的计算中,以成本的计算方法的计算。

0
下载
关闭预览

相关内容

神经网络的基础数学
专知会员服务
201+阅读 · 2022年1月23日
【硬核书】矩阵代数基础,248页pdf
专知会员服务
84+阅读 · 2021年12月9日
【Cell】神经算法推理,Neural algorithmic reasoning
专知会员服务
28+阅读 · 2021年7月16日
专知会员服务
36+阅读 · 2021年6月3日
专知会员服务
41+阅读 · 2021年4月2日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关VIP内容
神经网络的基础数学
专知会员服务
201+阅读 · 2022年1月23日
【硬核书】矩阵代数基础,248页pdf
专知会员服务
84+阅读 · 2021年12月9日
【Cell】神经算法推理,Neural algorithmic reasoning
专知会员服务
28+阅读 · 2021年7月16日
专知会员服务
36+阅读 · 2021年6月3日
专知会员服务
41+阅读 · 2021年4月2日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员