Model parallelism has become a necessity for training modern large-scale deep language models. In this work, we identify a new and orthogonal dimension from existing model parallel approaches: it is possible to perform pipeline parallelism within a single training sequence for Transformer-based language models thanks to its autoregressive property. This enables a more fine-grained pipeline compared with previous work. With this key idea, we design TeraPipe, a high-performance token-level pipeline parallel algorithm for synchronous model-parallel training of Transformer-based language models. We develop a novel dynamic programming-based algorithm to calculate the optimal pipelining execution scheme given a specific model and cluster configuration. We show that TeraPipe can speed up the training by 5.0x for the largest GPT-3 model with 175 billion parameters on an AWS cluster with 48 p3.16xlarge instances compared with state-of-the-art model-parallel methods. The code for reproduction can be found at https://github.com/zhuohan123/terapipe


翻译:模型平行已成为培训现代大型深层语言模型的必要条件。 在这项工作中,我们从现有的模型平行方法中找出一个新的和正方形层面:由于基于变异语言模型的自动递减特性,有可能在一个单一培训序列内对基于变异器的语言模型进行编审平行。这样,与以前的工作相比,可以有一个更精细的编审管道。有了这个关键的想法,我们设计了TeraPipe,这是对基于变异器的语言模型和平行模型同步培训的一种高性能的象征性平行编程算法。我们开发了一种新的动态编程算法,以计算基于特定模型和集群配置的最佳管线执行计划。我们显示,TeraPipe可以加速5.0x对最大GPT-3模型的培训,该模型有1,750亿个参数,AWS群群,48个P3.16个参数,比州-艺术模型-平行方法大。复制代码见https://github.com/zhuohan123/terapipipa。

0
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年6月12日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
YOLOv4 最强PyTorch复现来了!
CVer
3+阅读 · 2020年7月29日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Robust Linear Classification from Limited Training Data
Arxiv
5+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
YOLOv4 最强PyTorch复现来了!
CVer
3+阅读 · 2020年7月29日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员