Artificial intelligence (AI) and Machine learning (ML) workloads are an increasingly larger share of the compute workloads in traditional High-Performance Computing (HPC) centers and commercial cloud systems. This has led to changes in deployment approaches of HPC clusters and the commercial cloud, as well as a new focus on approaches to optimized resource usage, allocations and deployment of new AI frame- works, and capabilities such as Jupyter notebooks to enable rapid prototyping and deployment. With these changes, there is a need to better understand cluster/datacenter operations with the goal of developing improved scheduling policies, identifying inefficiencies in resource utilization, energy/power consumption, failure prediction, and identifying policy violations. In this paper we introduce the MIT Supercloud Dataset which aims to foster innovative AI/ML approaches to the analysis of large scale HPC and datacenter/cloud operations. We provide detailed monitoring logs from the MIT Supercloud system, which include CPU and GPU usage by jobs, memory usage, file system logs, and physical monitoring data. This paper discusses the details of the dataset, collection methodology, data availability, and discusses potential challenge problems being developed using this data. Datasets and future challenge announcements will be available via https://dcc.mit.edu.


翻译:人工智能(AI)和机器学习(ML)工作量在计算传统高性能计算中心和商业云层系统中的工作量中所占的份额越来越大,这导致高效电聚集的部署方法和商业云层的部署方法发生变化,以及新的侧重点,即优化资源使用、分配和部署新的人工智能框架工程的方法,以及诸如Jupyter笔记本等能力,以便能够迅速进行原型设计和部署。随着这些变化,需要更好地理解集群/数据中心业务,以便制定改进的时间安排政策,查明资源利用效率低、能源/电力消耗、故障预测以及查明违反政策的情况。在本文件中,我们介绍了MIT Supercloud数据集,目的是促进采用创新的AI/ML方法来分析大规模人工智能计算机和数据中心/库洛德操作。我们提供了MIT Supercloud系统的详细监测日志,其中包括按工作、记忆使用、档案系统日志和物理监测数据。本文将讨论数据集、收集方法、数据提供情况以及未来数据的挑战。

0
下载
关闭预览

相关内容

【MIT干货书】机器学习算法视角,126页pdf
专知会员服务
78+阅读 · 2021年1月25日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
147+阅读 · 2019年10月27日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
156+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
TensorFlow 2.0 Datasets 数据集载入
TensorFlow
6+阅读 · 2020年1月31日
已删除
AI掘金志
7+阅读 · 2019年7月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
Arxiv
0+阅读 · 2021年9月30日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
Semantics of Data Mining Services in Cloud Computing
Arxiv
4+阅读 · 2018年10月5日
VIP会员
相关VIP内容
【MIT干货书】机器学习算法视角,126页pdf
专知会员服务
78+阅读 · 2021年1月25日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
147+阅读 · 2019年10月27日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
156+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
TensorFlow 2.0 Datasets 数据集载入
TensorFlow
6+阅读 · 2020年1月31日
已删除
AI掘金志
7+阅读 · 2019年7月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
Top
微信扫码咨询专知VIP会员