The rapid growth of large language models (LLMs) and the continuous release of new GPU products have significantly increased the demand for distributed training across heterogeneous GPU environments. In this paper, we present a comprehensive analysis of the challenges involved in implementing 3D parallelism in such environments, addressing critical issues such as the need for symmetric tensor parallelism, efficient gradient synchronization in asymmetric pipeline parallelism, and the trade-offs between memory utilization and computational efficiency. Building upon these insights, we introduce AutoHet, a novel system that automatically identifies the optimal parallelism plan for distributed training on heterogeneous GPUs. AutoHet supports asymmetric 3D parallelism structures and facilitates fine-grained workload distribution. We propose a theoretical model that frames the device grouping and load balancing as an optimization problem to minimize per-iteration training time, thus effectively balancing computing power and memory usage across GPUs with diverse capabilities. To enable elastic training upon spot instance preemption, AutoHet presents an efficient recovery strategy that prioritizes to retrieve training states from local nodes, and only downloads the missing checkpoints from the cloud storage. Our extensive evaluation, conducted on three large-scale models and utilizing combinations of three different GPU types, demonstrates that AutoHet outperforms existing DNN training systems, achieving up to a 1.79$\times$ speedup in training throughput compared with Megatron-LM and Whale, and a 4.38$\times$ speedup of recovery speed compared to a spot instance baseline.


翻译:大型语言模型(LLMs)的快速增长以及新型GPU产品的持续发布,显著提升了在异构GPU环境中进行分布式训练的需求。本文全面分析了在此类环境中实现三维并行化所面临的挑战,重点探讨了对称张量并行的必要性、非对称流水线并行中的高效梯度同步,以及内存利用率与计算效率之间的权衡。基于这些分析,我们提出了AutoHet系统,该系统能够自动为异构GPU上的分布式训练识别最优并行化方案。AutoHet支持非对称三维并行结构,并实现了细粒度的工作负载分配。我们提出了一个理论模型,将设备分组与负载均衡问题构建为优化问题,以最小化每次迭代的训练时间,从而有效平衡不同能力GPU之间的计算能力与内存使用。为了在Spot实例被抢占时实现弹性训练,AutoHet提出了一种高效的恢复策略,优先从本地节点检索训练状态,仅从云存储下载缺失的检查点。我们在三个大规模模型上,结合使用三种不同类型的GPU进行了广泛评估。结果表明,AutoHet优于现有的DNN训练系统,与Megatron-LM和Whale相比,训练吞吐量最高可提升1.79倍,与Spot实例基线相比,恢复速度最高可提升4.38倍。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
48+阅读 · 11月21日
【NeurIPS2025】迈向开放世界的三维“物体性”学习
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员