Modern GPU datacenters are critical for delivering Deep Learning (DL) models and services in both the research community and industry. When operating a datacenter, optimization of resource scheduling and management can bring significant financial benefits. Achieving this goal requires a deep understanding of the job features and user behaviors. We present a comprehensive study about the characteristics of DL jobs and resource management. First, we perform a large-scale analysis of real-world job traces from SenseTime. We uncover some interesting conclusions from the perspectives of clusters, jobs and users, which can facilitate the cluster system designs. Second, we introduce a general-purpose framework, which manages resources based on historical data. As case studies, we design: a Quasi-Shortest-Service-First scheduling service, which can minimize the cluster-wide average job completion time by up to 6.5x; and a Cluster Energy Saving service, which improves overall cluster utilization by up to 13%.


翻译:现代GPU数据中心对于在研究界和工业界提供深层学习模式和服务至关重要。 当运行一个数据中心时,资源时间安排和管理的优化可以带来巨大的财政效益。 实现这一目标需要深入了解工作特点和用户行为。 我们提交了一份关于DL工作特点和资源管理的全面研究报告。 首先,我们对SenseTime的实际情况工作痕迹进行大规模分析。 我们从群集、工作和用户的角度发现了一些有趣的结论,这些结论可以促进群集系统的设计。 其次,我们引入了一个通用框架,根据历史数据管理资源。作为案例研究,我们设计了一种“准-短期-服务-第一排”的排期服务,可以将整个集群集的平均完成工作的时间减少到6.5x以下;以及一个集束节能服务,将集集的总体利用率提高到13%。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
TensorFlow 2.0 分布式训练
TensorFlow
8+阅读 · 2020年1月19日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
Arxiv
6+阅读 · 2021年10月25日
Arxiv
5+阅读 · 2020年8月28日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
5+阅读 · 2018年1月14日
VIP会员
相关资讯
TensorFlow 2.0 分布式训练
TensorFlow
8+阅读 · 2020年1月19日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
Top
微信扫码咨询专知VIP会员