Mixture-of-Experts (MoE) workloads rely on expert parallelism (EP) to achieve high GPU efficiency. State-of-the-art EP communication systems such as DeepEP demonstrate strong performance but exhibit poor portability across heterogeneous GPU and NIC platforms. The poor portability is rooted in architecture: GPU-initiated token-level RDMA communication requires tight vertical integration between GPUs and NICs, e.g., GPU writes to NIC driver/MMIO interfaces. We present UCCL-EP, a portable EP communication system that delivers DeepEP-level performance across heterogeneous GPU and NIC hardware. UCCL-EP replaces GPU-initiated RDMA with a high-throughput GPU-CPU control channel: compact token-routing commands are transferred to multithreaded CPU proxies, which then issue GPUDirect RDMA operations on behalf of GPUs. UCCL-EP further emulates various ordering semantics required by specialized EP communication modes using RDMA immediate data, enabling correctness on NICs that lack such ordering, e.g., AWS EFA. We implement UCCL-EP on NVIDIA and AMD GPUs with EFA and Broadcom NICs. On EFA, it outperforms the best existing EP solution by up to $2.1\times$ for dispatch and combine throughput. On NVIDIA-only platform, UCCL-EP achieves comparable performance to the original DeepEP. UCCL-EP also improves token throughput on SGLang by up to 40% on the NVIDIA+EFA platform, and improves DeepSeek-V3 training throughput over the AMD Primus/Megatron-LM framework by up to 45% on a 16-node AMD+Broadcom platform.


翻译:专家混合模型(MoE)工作负载依赖专家并行(EP)来实现高GPU效率。最先进的EP通信系统(如DeepEP)虽展现出强劲性能,但在异构GPU和NIC平台间可移植性较差。这种可移植性不足源于其架构设计:GPU发起的令牌级RDMA通信需要GPU与NIC之间紧密的垂直集成,例如GPU需直接写入NIC驱动程序/MMIO接口。本文提出UCCL-EP,一种可移植的EP通信系统,能在异构GPU和NIC硬件上提供与DeepEP相当的性能。UCCL-EP采用高吞吐量GPU-CPU控制通道替代GPU发起的RDMA:将紧凑的令牌路由命令传输至多线程CPU代理,由代理代表GPU执行GPUDirect RDMA操作。UCCL-EP进一步利用RDMA即时数据模拟专用EP通信模式所需的各种排序语义,从而在缺乏此类排序功能的NIC(如AWS EFA)上确保正确性。我们在配备EFA与博通NIC的NVIDIA和AMD GPU平台上实现了UCCL-EP。在EFA平台上,其调度与组合吞吐量最高可达现有最佳EP方案的$2.1\times$。在纯NVIDIA平台上,UCCL-EP实现了与原始DeepEP相当的性能。在NVIDIA+EFA平台上,UCCL-EP将SGLang的令牌吞吐量提升最高达40%;在16节点AMD+博通平台上,将DeepSeek-V3在AMD Primus/Megatron-LM框架上的训练吞吐量提升最高达45%。

0
下载
关闭预览

相关内容

【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
RNN | RNN实践指南(2)
KingsGarden
19+阅读 · 2017年5月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月19日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员