Geo-distributed ML training can benefit many emerging ML scenarios (e.g., large model training, federated learning) with multi-regional cloud resources and wide area network. However, its efficiency is limited due to 2 challenges. First, efficient elastic scheduling of multi-regional cloud resources is usually missing, affecting resource utilization and performance of training. Second, training communication on WAN is still the main overhead, easily subjected to low bandwidth and high fluctuations of WAN. In this paper, we propose a framework, Cloudless-Training, to realize efficient PS-based geo-distributed ML training in 3 aspects. First, it uses a two-layer architecture with control and physical training planes to support elastic scheduling and communication for multi-regional clouds in a serverless maner.Second, it provides an elastic scheduling strategy that can deploy training workflows adaptively according to the heterogeneity of available cloud resources and distribution of pre-existing training datasets. Third, it provides 2 new synchronization strategies for training partitions among clouds, including asynchronous SGD with gradient accumulation (ASGD-GA) and inter-PS model averaging (MA). It is implemented with OpenFaaS and evaluated on Tencent Cloud. Experiments show that Cloudless-Training can support general ML training in a geo-distributed way, greatly improve resource utilization (e.g., 9.2%-24.0% training cost reduction) and synchronization efficiency (e.g., 1.7x training speedup over baseline at most) with model correctness guarantees.
翻译:地理分布的 ML 培训可有益于许多新出现的 ML 情景(如大型模型培训、联合学习),包括多区域云源和广域网。然而,由于两个挑战,其效率有限。首先,多区域云源的高效弹性时间安排通常缺乏,影响资源利用和培训业绩。第二,广域网培训通信仍然是主要管理费用,容易受低带宽和广域网高波动的影响。在本文件中,我们提议了一个框架,即无云培训,以实现基于PS的高效地理分布ML 培训3个方面。首先,它使用带有控制和物理培训机的双层结构,以支持无服务器的多区域云层的弹性时间安排和通信。第二,它提供弹性时间安排战略,根据现有云源资源的多样性和预先存在的培训数据集的分布,适应培训云层的分布。第三,它为云层之间的正确分配提供了2项新的同步战略,包括以渐变速度递增的SGDT(ASG-G-GA) 和以不易变速速度培训方式执行的Oloudal-L AS-SIL IM AS IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IMVL IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IMV IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM</s>