This paper focuses on mitigating the impact of stragglers in distributed learning system. Unlike the existing results designed for a fixed number of stragglers, we developed a new scheme called Adaptive Gradient Coding(AGC) with flexible tolerance of various number of stragglers. Our scheme gives an optimal tradeoff between computation load, straggler tolerance and communication cost. In particular, it allows to minimize the communication cost according to the real-time number of stragglers in the practical environments. Implementations on Amazon EC2 clusters using Python with mpi4py package verify the flexibility in several situations.


翻译:本文侧重于减轻分布式学习系统中排泄器的影响。与为固定数量的排泄器设计的现有结果不同,我们开发了一个新的方案,称为适应性梯度编码(AGC),灵活地容忍不同数量的排流器。我们的方案在计算负荷、排流容忍度和通信成本之间提供了最佳的权衡。特别是,它能够根据实际环境中的排流器的实时数量来尽量减少通信成本。在亚马逊EC2群群中,使用 Python 和 mpi4py 软件包对多种情况下的灵活性进行验证。

0
下载
关闭预览

相关内容

专知会员服务
37+阅读 · 2021年5月28日
【2021新书】编码艺术,Coding Art,284页pdf
专知会员服务
74+阅读 · 2021年1月10日
专知会员服务
16+阅读 · 2020年12月4日
专知会员服务
159+阅读 · 2020年1月16日
tf.GradientTape 详解
TensorFlow
120+阅读 · 2020年2月21日
Github项目推荐 | DeepHash - 深度学习哈希开源库
AI研习社
26+阅读 · 2019年4月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2021年12月9日
Arxiv
0+阅读 · 2021年12月8日
VIP会员
相关资讯
tf.GradientTape 详解
TensorFlow
120+阅读 · 2020年2月21日
Github项目推荐 | DeepHash - 深度学习哈希开源库
AI研习社
26+阅读 · 2019年4月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员