Communication in parallel systems imposes significant overhead which often turns out to be a bottleneck in parallel machine learning. To relieve some of this overhead, in this paper, we present EventGraD - an algorithm with event-triggered communication for stochastic gradient descent in parallel machine learning. The main idea of this algorithm is to modify the requirement of communication at every iteration in standard implementations of stochastic gradient descent in parallel machine learning to communicating only when necessary at certain iterations. We provide theoretical analysis of convergence of our proposed algorithm. We also implement the proposed algorithm for data-parallel training of a popular residual neural network used for training the CIFAR-10 dataset and show that EventGraD can reduce the communication load by up to 60% while retaining the same level of accuracy. In addition, EventGraD can be combined with other approaches such as Top-K sparsification to decrease communication further while maintaining accuracy.


翻译:平行系统中的通信要求大量的间接费用,这往往证明是平行机器学习中的一个瓶颈。为了减轻部分间接费用,我们在本文件中介绍了“事件GraD”——一种在平行机器学习中为随机梯度下降进行事件触发通信的算法。这种算法的主要想法是修改在标准实施“随机梯度梯度下降”的每一次迭代中进行通信的要求,仅在必要情况下在某些迭代中进行平行机器学习,以进行通信。我们提供了我们拟议算法趋同的理论分析。我们还实施了用于培训CIFAR-10数据集的流行性残余神经网络数据平行培训的拟议算法,并表明“事件GraD”可以将通信负荷减少60%,同时保持同样的准确度。此外,“事件GraD”可以与“Top-K spararcization”等其他方法相结合,在保持准确性的同时进一步减少通信。

0
下载
关闭预览

相关内容

随机梯度下降,按照数据生成分布抽取m个样本,通过计算他们梯度的平均值来更新梯度。
专知会员服务
114+阅读 · 2019年12月24日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
2019热门开源机器学习项目汇总
专知
9+阅读 · 2020年1月3日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
7+阅读 · 2021年4月30日
Asymmetrical Vertical Federated Learning
Arxiv
3+阅读 · 2020年6月11日
Arxiv
45+阅读 · 2019年12月20日
Arxiv
3+阅读 · 2018年6月1日
VIP会员
相关资讯
2019热门开源机器学习项目汇总
专知
9+阅读 · 2020年1月3日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员