Distributed data-parallel training has been widely used for natural language processing (NLP) neural network models. However, the embedding tables in NLP models, holding a large portion of parameters and bringing dramatic sparsity in communication, make it a big challenge to efficiently scale the distributed training. Current distributed training frameworks mainly concentrate on dense models but neglect the sparsity of NLP models, resulting in significant communication overhead and relatively poor scalability. In this paper, we propose EmbRace, an efficient communication framework designed to accelerate sparse communication of distributed NLP model training. EmbRace introduces Sparsity-aware Hybrid Communication, which combines AlltoAll and AllReduce to optimize the communication overhead for sparse and dense data in NLP models. EmbRace further introduces a 2D Communication Scheduling approach to thoroughly overlap communication with computation by optimizing model computation procedure, relaxing the dependency of embeddings, and scheduling communication with a priority queue. We implement EmbRace based on PyTorch and Horovod, and conduct comprehensive evaluations with four representative NLP models on two high-performance GPU clusters. Experimental results show that EmbRace achieves up to 30.66X speedup on 16 GPUs clusters among four popular distributed training baselines.


翻译:在自然语言处理神经网络模型中,广泛使用了分布式数据培训,但是,在自然语言处理(NLP)神经网络模型中嵌入的表格中,拥有大量参数,在通信中带来巨大的广度,这给有效扩大分布式培训带来了巨大的挑战。目前分布式培训框架主要集中于密集模型,但忽视了非LP模型的广度,导致通信管理费用巨大和可扩缩性相对较弱。在本文中,我们提议EmbRace,这是一个高效的通信框架,旨在加速分布式NLP模型培训的稀少通信。EmbRace引入了 " 普及 " 和 " 统称 " 混合通信,以优化NLPAll和 " 模型中稀散和密度数据的通信管理管理。EmbRace还引入了2D通信规划方法,通过优化模型计算程序、放松嵌入的依赖和优先排队安排通信。我们根据PyToirch和Horovod实施了Embrace-awale 混合通信,并用四个具有代表性的NLPP模型进行全面的评价,在两种具有代表性的NLPE-LPO GPU Slavely Slavelment 4 Slax AS AS AS ASy AS AS ASyal ASyal ASyal ASyal ASyal ASyal ASyal 16 AS AS AS AS AS AS AS AS AS AS AS AS AS ASyl AS AS ASyl ASyl ASyl ASyl ASyl ASyl ASyl ASyl ASyl ASyal 16 ASyl ASyl 16 ASyl ASyl ASyl ASyl ASl ASl ASyl ASl ASl 4 ASl ASl ASl ASl ASyl 4 4 4 上,在两个G ASl AS ASl ASl AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
【图神经网络导论】Intro to Graph Neural Networks,176页ppt
专知会员服务
125+阅读 · 2021年6月4日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
已删除
将门创投
7+阅读 · 2018年4月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
13+阅读 · 2021年6月14日
Arxiv
19+阅读 · 2020年7月13日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
已删除
将门创投
7+阅读 · 2018年4月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员