Large ML models and datasets have necessitated the use of multi-GPU systems for distributed model training. To harness the power offered by multi-GPU systems, it is critical to eliminate bottlenecks in inter-GPU communication - a problem made challenging by the heterogeneous nature of interconnects. In this work, we present TACCL, a synthesizer for collective communication primitives for large-scale multi-GPU systems. TACCL encodes a profiled topology and input size into a synthesis problem to generate optimized communication algorithms. TACCL is built on top of the standard NVIDIA Collective Communication Library (NCCL), allowing it to be a drop-in replacement for GPU communication in frameworks like PyTorch with minimal changes. TACCL generates algorithms for communication primitives like Allgather, Alltoall, and Allreduce that are up to $3\times$ faster than NCCL. Using TACCL's algorithms speeds up the end-to-end training of an internal mixture of experts model by $17\%$. By decomposing the optimization problem into parts and leveraging the symmetry in multi-GPU topologies, TACCL synthesizes collectives for up to 80-GPUs in less than 3 minutes, at least two orders of magnitude faster than other synthesis-based state-of-the-art collective communication libraries.


翻译:大型 ML 模型和数据集使得有必要使用多GPU系统进行分布式模型培训。 要利用多GPU系统提供的力量, 关键是要消除GPU之间通信的瓶颈 -- -- 这是因互连性质差异性造成的问题。 在这项工作中, 我们为大型多GPU系统的集体通信原始功能提供TACCL 合成器。 TACCL 将剖析表层和输入大小编码为合成问题, 以产生优化的通信算法。 TACCL 在标准 NVIDIA 集体通信图书馆( NCCL) 的顶端上建了 TACCL, 使其能够在像 PyTorrch 这样的框架中, 成为 GPUPL 通信的缩放替换器。 TACCL 为 Allgather, Alltoall 和 Alled 等通信原始元素生成算法, 比NCLCL 更快3 。 使用 TACCL 的算法加快了对内部专家混合模型的端到端培训, 17 ⁇ $。 将优化问题解到最小部分, 将GPIPL 3 快速的合成库中, 以比 80 最高合成速度更快的合成库中 。

0
下载
关闭预览

相关内容

在计算机网络中,异构网络是一种连接计算机和其他设备的网络,其中操作系统和协议有显著差异。例如,将基于微软Windows和Linux的个人计算机与苹果Macintosh计算机连接起来的局域网(LANs)是异构的。异构网络也被用于使用不同接入技术的无线网络中。例如,通过无线局域网提供服务并在切换到蜂窝网络时能够维持服务的无线网络称为无线异构网络。
最新《高级算法》Advanced Algorithms,176页pdf
专知会员服务
90+阅读 · 2020年10月22日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
149+阅读 · 2019年10月12日
CCF推荐 | 国际会议信息8条
Call4Papers
9+阅读 · 2019年5月23日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
VIP会员
相关资讯
CCF推荐 | 国际会议信息8条
Call4Papers
9+阅读 · 2019年5月23日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Top
微信扫码咨询专知VIP会员