Rollout-training disaggregation is emerging as the standard architecture for Reinforcement Learning (RL) post-training, where memory-bound rollout and compute-bound training are physically disaggregated onto purpose-built clusters to maximize hardware efficiency. However, the strict synchronization required by on-policy algorithms introduces severe dependency bubbles, forcing one cluster to idle while the dependent phase is running on the other. We present RollMux, a cluster scheduling framework that reclaims these bubbles through cross-cluster orchestration. RollMux is built on the insight that the structural idleness of one job can be effectively utilized by the active phase of another. To realize this, we introduce the co-execution group abstraction, which partitions the cluster into isolated locality domains. This abstraction enables a two-tier scheduling architecture: an inter-group scheduler that optimizes job placement using conservative stochastic planning, and an intra-group scheduler that orchestrates a provably optimal round-robin schedule. The group abstraction also imposes a residency constraint, ensuring that massive model states remain cached in host memory to enable "warm-star" context switching. We evaluate RollMux on a production-scale testbed with 328 H20 and 328 H800 GPUs. RollMux improves cost efficiency by 1.84x over standard disaggregation and 1.38x over state-of-the-art co-located baselines, all while achieving 100% SLO attainment.


翻译:推演-训练解耦正逐渐成为强化学习后训练的标准架构,其中内存受限的推演阶段与计算受限的训练阶段被物理解耦至专用集群,以实现硬件效率最大化。然而,同策略算法所需的严格同步引入了严重的依赖气泡,导致一个集群在依赖相位于另一集群运行时被迫闲置。本文提出RollMux——一种通过跨集群编排回收这些气泡的集群调度框架。RollMux基于以下洞见构建:一个任务的结构性闲置资源可被另一任务的活跃相位有效利用。为实现此目标,我们引入协同执行组抽象,将集群划分为隔离的局部性域。该抽象支持双层调度架构:采用保守随机规划优化任务放置的组间调度器,以及编排可证明最优轮转调度的组内调度器。组抽象同时施加驻留约束,确保海量模型状态持续缓存于主机内存,以实现“热启动”上下文切换。我们在包含328张H20与328张H800 GPU的生产级测试平台上评估RollMux。实验表明,RollMux相较于标准解耦方案将成本效益提升1.84倍,较现有先进共置基线提升1.38倍,同时实现100%的服务水平目标达成率。

0
下载
关闭预览

相关内容

【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
27+阅读 · 2020年11月14日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员