Recent years have witnessed a rapid growth of distributed machine learning (ML) frameworks, which exploit the massive parallelism of computing clusters to expedite ML training. However, the proliferation of distributed ML frameworks also introduces many unique technical challenges in computing system design and optimization. In a networked computing cluster that supports a large number of training jobs, a key question is how to design efficient scheduling algorithms to allocate workers and parameter servers across different machines to minimize the overall training time. Toward this end, in this paper, we develop an online scheduling algorithm that jointly optimizes resource allocation and locality decisions. Our main contributions are three-fold: i) We develop a new analytical model that considers both resource allocation and locality; ii) Based on an equivalent reformulation and observations on the worker-parameter server locality configurations, we transform the problem into a mixed packing and covering integer program, which enables approximation algorithm design; iii) We propose a meticulously designed approximation algorithm based on randomized rounding and rigorously analyze its performance. Collectively, our results contribute to the state of the art of distributed ML system optimization and algorithm design.


翻译:近年来,分布式机器学习(ML)框架迅速增长,利用计算组群的大规模平行性加速ML培训。然而,分布式ML框架的激增也给计算系统设计和优化带来了许多独特的技术挑战。在一个支持大量培训工作的网络化计算机组群中,一个关键问题是如何设计高效的排期算法,在不同机器之间分配工人和参数服务器,以最大限度地减少总体培训时间。为此,我们在本文件中开发了一个在线排期算法,以共同优化资源分配和地点决定。我们的主要贡献有三重:一)我们开发了一个新的分析模型,既考虑资源分配,也考虑地点;二)根据对工人-参数服务器地点配置的同等重新设计和观察,我们把问题转换成混合包装和覆盖整数程序,从而能够进行近似算法设计。三)我们建议了一种精心设计的近似算法,以随机组合组合和严格分析其性能为基础。我们的主要贡献有三重:一)我们开发了一个新的分析模型,既考虑资源分配,又考虑地点;二)基于对工人-参数服务器地点配置的配置式系统优化和算法设计。

0
下载
关闭预览

相关内容

分布式机器学习研究将具有大规模数据量和计算量的任务分布式地部署到多台机器上,其核心思想在于“分而治之”,有效提高了大规模数据计算的速度并节省了开销。
【图与几何深度学习】Graph and geometric deep learning,49页ppt
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
Federated Learning: 架构
AINLP
4+阅读 · 2020年9月20日
人工智能 | ACCV 2020等国际会议信息5条
Call4Papers
6+阅读 · 2019年6月21日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
6+阅读 · 2019年12月30日
Arxiv
45+阅读 · 2019年12月20日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关VIP内容
【图与几何深度学习】Graph and geometric deep learning,49页ppt
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
相关资讯
Federated Learning: 架构
AINLP
4+阅读 · 2020年9月20日
人工智能 | ACCV 2020等国际会议信息5条
Call4Papers
6+阅读 · 2019年6月21日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员