The overall execution time of distributed matrix computations is often dominated by slow worker nodes (stragglers) over the clusters. Recently, different coding techniques have been utilized to mitigate the effect of stragglers where worker nodes are assigned the task of processing encoded submatrices of the original matrices. In many machine learning or optimization problems the relevant matrices are often sparse. Several coded computation methods operate with dense linear combinations of the original submatrices; this can significantly increase the worker node computation times and consequently the overall job execution time. Moreover, several existing techniques treat the stragglers as failures (erasures) and discard their computations. In this work, we present a coding approach which operates with limited encoding of the original submatrices and utilizes the partial computations done by the slower workers. Our scheme continues to have the optimal threshold of prior work. Extensive numerical experiments done in AWS (Amazon Web Services) cluster confirm that the proposed approach enhances the speed of the worker computations (and thus the whole process) significantly.


翻译:分布式矩阵计算的总体执行时间往往由各组群的慢速工人节点(分流器)决定。最近,利用了不同的编码技术来减轻分流器的影响,其中工人节点被指派处理原始矩阵的编码子矩阵。在许多机器学习或优化问题中,相关的矩阵往往很稀少。几种编码计算方法使用原始次矩阵的密集线性组合操作;这可以大大增加工人节点计算时间,从而大大增加整个工作执行时间。此外,一些现有技术将分流器作为故障(紧缩)处理,并抛弃其计算方法。在这个工作中,我们提出了一个编码方法,在对原次矩阵进行有限的编码的情况下操作,并使用较慢的工人所作的部分计算。我们的计算方法继续拥有前工作的最佳门槛。在AWS(亚马孙网络服务)组群中进行的广泛数字实验证实,拟议的方法极大地提高了工人的计算速度(以及整个过程)。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
7+阅读 · 2019年3月28日
Arxiv
0+阅读 · 2021年11月15日
Arxiv
4+阅读 · 2019年1月14日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
7+阅读 · 2019年3月28日
Top
微信扫码咨询专知VIP会员