To train large models (like BERT and GPT-3) on hundreds of GPUs, communication has become a major bottleneck, especially on commodity systems with limited-bandwidth TCP network. On one side large batch-size optimization such as LAMB algorithm was proposed to reduce the frequency of communication. On the other side, communication compression algorithms such as 1-bit Adam help to reduce the volume of each communication. However, we find that simply using one of the techniques is not sufficient to solve the communication challenge, especially under low network bandwidth. Motivated by this we aim to combine the power of large-batch optimization and communication compression, but we find that existing compression strategies cannot be directly applied to LAMB due to its unique adaptive layerwise learning rates. To this end, we design a new communication-efficient algorithm, 1-bit LAMB, which introduces a novel way to support adaptive layerwise learning rates under compression. In addition, we introduce a new system implementation for compressed communication using the NCCL backend of PyTorch distributed, which improves both usability and performance. For BERT-Large pre-training task with batch sizes from 8K to 64K, our evaluations on up to 256 GPUs demonstrate that 1-bit LAMB with NCCL-based backend is able to achieve up to 4.6x communication volume reduction, up to 2.8x end-to-end time-wise speedup, and the same sample-wise convergence speed (and same fine-tuning task accuracy) compared to uncompressed LAMB.


翻译:为了在数百个GPU上培训大型模型(如BERT和GPT-3),通信已成为一个主要瓶颈,特别是在具有有限带宽TCP网络的商品系统上。一方面,提出了大批量优化,如LAMB算算法,以减少通信频率。另一方面,1比特亚当等通信压缩算法有助于减少每部通信的量。然而,我们发现,仅仅使用其中一种技术不足以解决通信挑战,特别是在低网络带宽下。为此,我们的目标是将大批量优化和通信压缩的功能结合起来,但我们认为,由于LAMB的独特适应性层次学习率,现有的压缩战略不能直接适用于LAMB。为此,我们设计了新的通信效率算法,1比特1比特的LAMB,这为支持适应性层宽度学习率而提供了新的方法。此外,我们引入了一个新的系统,用NCLCLF的后端端点,这既能提高利用率和性能性能。但是,BERT-LA前级比值比值比值的比值比值比值比值比值比值为8K到NPLBPLA的比值后至比值,比值的比值比值的比值比值比值比值比值的比值比值到比值的比值,比值比值比值比值到比值到比值的比值到比值的比值到比值到比值的比值到比值到比值到比值的比值的比值到比值的比值到比值的比值到比值到比值的比值的比值的比值的比值的比值到比值的比值,比值到比值到比值的比值的比值到比值的比值到比值的比值的比值的比值到比值的比值的比值到比值到比值的比值的比值,比值到比值到比值到比值,比值到比值到比值到比值到比值到比值到比值的比值的比值的比值。

0
下载
关闭预览

相关内容

【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Slimmable Generative Adversarial Networks
Arxiv
3+阅读 · 2020年12月10日
VIP会员
相关VIP内容
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员