In Machine Learning (ML) system research, efficient resource scheduling and utilization have always been an important topic given the compute-intensive nature of ML applications. In this paper, we introduce the design of TACC, a full-stack cloud infrastructure that efficiently manages and executes large-scale machine learning applications in compute clusters. TACC implements a 4-layer application workflow abstraction through which system optimization techniques can be dynamically combined and applied to various types of ML applications. TACC also tailors to the lifecycle of ML applications with an efficient process of managing, deploying, and scaling ML tasks. TACC's design simplifies the process of integrating the latest ML system research work into cloud infrastructures, which we hope will benefit more ML researchers and promote ML system researches.


翻译:在机器学习(ML)系统研究中,考虑到ML应用的计算密集性质,高效的资源时间安排和利用一直是一个重要的专题,在本文中,我们介绍了TACC的设计,这是一个全堆云基础设施,能有效地管理和实施大型机器学习应用程序以计算群集;TACC采用四层应用工作流程抽象,通过这种抽象,系统优化技术可以动态地结合并应用于各种ML应用;TACC还针对ML应用的生命周期,采用有效的管理、部署和扩展ML任务的过程。TACC的设计简化了将最新的ML系统研究工作纳入云层基础设施的进程,我们希望这将使更多的ML研究人员受益,并促进ML系统研究。

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
339+阅读 · 2020年1月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
Arxiv
56+阅读 · 2021年5月3日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
45+阅读 · 2019年12月20日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关VIP内容
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
339+阅读 · 2020年1月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
相关论文
Arxiv
56+阅读 · 2021年5月3日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
45+阅读 · 2019年12月20日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
151+阅读 · 2017年8月1日
Top
微信扫码咨询专知VIP会员