As the size and complexity of models and datasets grow, so does the need for communication-efficient variants of stochastic gradient descent that can be deployed to perform parallel model training. One popular communication-compression method for data-parallel SGD is QSGD (Alistarh et al., 2017), which quantizes and encodes gradients to reduce communication costs. The baseline variant of QSGD provides strong theoretical guarantees, however, for practical purposes, the authors proposed a heuristic variant which we call QSGDinf, which demonstrated impressive empirical gains for distributed training of large neural networks. In this paper, we build on this work to propose a new gradient quantization scheme, and show that it has both stronger theoretical guarantees than QSGD, and matches and exceeds the empirical performance of the QSGDinf heuristic and of other compression methods.


翻译:随着模型和数据集的规模和复杂性的扩大和复杂性的提高,对可用于进行平行模式培训的通信效率高的梯度下降变体的需要也随之增加。数据平行SGD的一种流行的通信压缩法是QSGD(Alistrah等人,2017年),它量化和编码梯度,以减少通信成本。QSGD的基线变体提供了强有力的理论保障,然而,出于实际目的,作者们提出了一种我们称之为QSGDinf的超常变体,它显示了在大型神经网络的分布培训中所取得的令人印象深刻的经验性收益。在本文件中,我们以这项工作为基础提出一个新的梯度四分化计划,并表明它既有比QSGD的更强大的理论保障,而且与QSGDinf的超自然法和其他压缩方法的实验性能相匹配和超过。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年4月2日
专知会员服务
52+阅读 · 2020年9月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
ICLR 2020会议的16篇最佳深度学习论文
AINLP
5+阅读 · 2020年5月12日
深度学习模型剪枝:Slimmable Networks三部曲
极市平台
3+阅读 · 2020年2月22日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Arxiv
0+阅读 · 2021年8月5日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
VIP会员
相关资讯
ICLR 2020会议的16篇最佳深度学习论文
AINLP
5+阅读 · 2020年5月12日
深度学习模型剪枝:Slimmable Networks三部曲
极市平台
3+阅读 · 2020年2月22日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Top
微信扫码咨询专知VIP会员