Distributed training of large deep-learning models often leads to failures, so checkpointing is commonly employed for recovery. State-of-the-art studies focus on frequent checkpointing for fast recovery from failures. However, it generates numerous checkpoints, incurring substantial costs and thus degrading training performance. Recently, differential checkpointing has been proposed to reduce costs, but it is limited to recommendation systems, so its application to general distributed training systems remains unexplored. We propose \sysname, an efficient frequent checkpointing framework that \textit{reuses} compressed gradients, serving as differential checkpoints to reduce cost. Furthermore, \sysname incorporates a batched gradient write optimization to persist these differentials to storage efficiently. It also dynamically tunes both the checkpoint frequency and the batching size to maximize performance. To enhance \sysname under non-compression scenarios, we further propose \sysnameplus, which incorporates a layer-wise-reuse snapshotting strategy, along with an incremental-merging persistence strategy. Experiments on various workloads show that \sysname and \sysnameplus can reduce the training time by up to 89.2\% and 81.2\% with checkpointing frequency up to per iteration.


翻译:大规模深度学习模型的分布式训练常因故障中断,故通常采用检查点机制进行恢复。现有前沿研究集中于通过频繁检查点实现快速故障恢复。然而,该方法会产生大量检查点,导致显著开销并降低训练性能。近期提出的差分检查点技术虽能降低成本,但仅限于推荐系统场景,其在通用分布式训练系统中的适用性尚未得到探索。本文提出 \sysname,一种高效的频繁检查点框架,通过\textit{复用}压缩后的梯度作为差分检查点以降低开销。此外,\sysname 采用批量梯度写入优化策略,将这些差分数据高效持久化存储。该框架还能动态调整检查点频率与批处理大小以最大化性能。为提升 \sysname 在非压缩场景下的效能,我们进一步提出 \sysnameplus,该方案融合了分层复用快照策略与增量合并持久化策略。在多类工作负载上的实验表明,在检查点频率达到每迭代一次的设置下,\sysname 与 \sysnameplus 最高可分别减少 89.2\% 和 81.2\% 的训练时间。

0
下载
关闭预览

相关内容

国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员