Distributed data processing systems like MapReduce, Spark, and Flink are popular tools for analysis of large datasets with cluster resources. Yet, users often overprovision resources for their data processing jobs, while the resource usage of these jobs also typically fluctuates considerably. Therefore, multiple jobs usually get scheduled onto the same shared resources to increase the resource utilization and throughput of clusters. However, job runtimes and the utilization of shared resources can vary significantly depending on the specific combinations of co-located jobs. This paper presents Hugo, a cluster scheduler that continuously learns how efficiently jobs share resources, considering metrics for the resource utilization and interference among co-located jobs. The scheduler combines offline grouping of jobs with online reinforcement learning to provide a scheduling mechanism that efficiently generalizes from specific monitored job combinations yet also adapts to changes in workloads. Our evaluation of a prototype shows that the approach can reduce the runtimes of exemplary Spark jobs on a YARN cluster by up to 12.5%, while resource utilization is increased and waiting times can be bounded.


翻译:分布式数据处理系统,如MapReduce、Spark和Flink等,是分析大型数据集集集资源的流行工具。然而,用户往往为数据处理工作提供过多的资源,而这些工作的资源使用也通常波动很大。因此,多份工作通常被安排在同一共享资源上,以增加资源利用和集群的吞吐量。然而,工作运行时间和共享资源的利用可能因合用工作的具体组合而大不相同。本文介绍雨果,这是不断学习如何高效地共享资源、考虑资源利用指标和共同部署工作之间干扰的群集调度器。调度器将脱线工作与在线强化学习结合起来,以提供一个安排机制,有效地从特定监测的工作组合中归纳,同时适应工作量的变化。我们对原型的评估表明,该方法可以将YARN组模范的Spark工作运行时间降低到12.5%,同时资源利用增加,等待的时间可以被捆绑在一起。

0
下载
关闭预览

相关内容

Python编程基础,121页ppt
专知会员服务
49+阅读 · 2021年1月1日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Arxiv
45+阅读 · 2019年12月20日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
VIP会员
相关VIP内容
Python编程基础,121页ppt
专知会员服务
49+阅读 · 2021年1月1日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Top
微信扫码咨询专知VIP会员