阿里重磅开源！4000台服务器真实数据集，揭秘世界级数据中心

2018 年 12 月 20 日 阿里技术

阿里妹导读：打开一篇篇 IT 技术文章，你总能够看到“大规模”、“海量请求”这些字眼。这些功能强大的互联网应用，都运行在大规模数据中心上。数据中心每个机器的运行情况如何？运行着什么样的应用？应用有什么特点？除了少数资深从业者之外，普通学生和企业的研究者很难了解其中细节。

今天，阿里巴巴再度开放一份计算机集群的真实数据集（Alibaba Cluster Data V2018）。该数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离，推动产业的进一步发展。

下面，阿里系统软件事业部的技术专家临石，为大家深入介绍这份独特的数据集。

2015 年，我们尝试在阿里巴巴的数据中心，将延迟不敏感的批量离线计算任务和延迟敏感的在线服务部署到同一批机器上运行，让在线服务用不完的资源充分被离线使用以提高机器的整体利用率。

经过 3 年多的试验论证、架构调整和资源隔离优化，目前这个方案已经走向大规模生产。我们通过混部技术将集群平均资源利用率从 10% 大幅度提高到 45%。另外，通过各种优化手段，可以让更多任务运行在数据中心，将“双11”平均每万笔交易成本下降了 17%。

那么，实施了一系列优化手段之后的计算机集群究竟是什么样子？混部的情况究竟如何？

为了让有兴趣的学生以及相关研究人员，可以从数据上更加深入地理解大规模数据中心，我们特别发布了这份数据集（Alibaba Cluster Data V2018）。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中，你可以详细了解到我们是如何通过混部把资源利用率提高到 45%；我们每天到底运行了多少任务；以及业务的资源需求有什么特点。如何使用这份数据集，完全取决于你的需要。

如何下载？

长按识别以下二维码，关注“阿里技术”官方公众号，并在对话框内回复“数据集”，即可免费下载、了解更多详情。

这个数据可以做什么？

这份 Alibaba Cluster Data V2018 包含 6 个文件，压缩后大小近 50GB（压缩前 270+GB），里面包含了 4000 台服务器、相应的在线应用容器和离线计算任务长达 8 天的运行情况。

通过这份数据，你可以：

了解当代先进数据中心的服务器以及任务运行特点；
试验你的调度、运筹等各种任务管理和集群优化方面的各种算法并撰写论文；
利用这份数据学习如何进行数据分析，揭示更多我们自己都未曾发现的规律。

上面这几点，没有接触过类似数据的朋友，可能对于这份数据的用处并没有直观的印象，下面我举几个简单的例子：

电商业务在白天和晚上面临的压力不同，我们如何在业务存在波峰波谷的情况下提高整体资源利用率？
你知道我们最长的 DAG 有多少依赖吗？
一个典型的容器存在时间是多久？
一个计算型任务的典型存在时间是多少？一个 Task 的多个 Instance 理论上彼此很相似，但是它们运行的时间都一样吗？

实际上，学者们甚至可以用这些数据作出更加精彩的分析。2017年，我们开放的第一波数据（Alibaba Cluster Data V2017），已经产生了多篇优秀的学术成果。

以下是学者们在论文中引用数据（Alibaba Cluster Data V2017）的例子，其中不乏被 OSDI 这样顶级学术会议收录的优秀文章。我们期待，未来你也能与我们共同分享你用这份数据产生的成果！

"LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18" (Best paper award!)

"CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018"

Cluster Data V2018 更出色

新版本 V2018 与 V2017 存在两个最大的区别：

DAG 信息加入

我们加入了离线任务的 DAG 任务信息，据了解，这是目前来自实际生产环境最大的 DAG 数据。

究竟什么是 DAG？离线计算任务，例如 Map Reduce、Hadoop、Spark、Flink 中常用的任务，都是以有向无环图（Directed Acyclic Graph，DAG）的形式进行编排的，其中涉及到任务之间的并行、依赖等方面。下面是一个 DAG 的例子。

规模更大

上一版数据包含了约 1300 台机器在约 24 小时的内容数据，而新版 Cluster Data V2018 中包括了 4000 台机器 8 天的数据。

我们建立了一个关于 Cluster Data V2018的交流钉钉群。使用钉钉搜索群号：23112775，即可加入。点击文末“阅读原文”，可填写调查问卷。

想看到更多数据？我们长期招收研究型实习生，与我们一起发现问题、解决问题，挑战世界级技术问题，欢迎投递简历：haiyang.dhy@alibaba-inc.com

你可能还喜欢

点击下方图片即可阅读

Java工程师的红黑技能树，如何快速点亮？

万字长文揭秘：阿里如何实现海量数据实时分析？

阿里玄难：面向不确定性的软件设计几点思考

关注「阿里技术」

把握前沿技术脉搏

登录查看更多

相关内容

簇

关注 1

【SIGMOD2020-阿里巴巴】AliCoCo阿里巴巴电子商务知识图谱的认知概念网半自动构建

专知会员服务

36+阅读 · 2020年3月31日

【2020新书】如何构建数据团队？:设计集成的技能、需求和解决方案，257页pdf

专知会员服务

115+阅读 · 2020年3月11日

【2020新书】Kafka实战：Kafka in Action，209页pdf

专知会员服务

69+阅读 · 2020年3月9日

《人工智能2020：落地挑战与应对》56页pdf

专知会员服务

197+阅读 · 2020年3月8日

阿里巴巴达摩院发布「2020十大科技趋势」

专知会员服务

108+阅读 · 2020年1月2日

【大数据白皮书 2019】中国信息通信研究院

专知会员服务

138+阅读 · 2019年12月12日

【白皮书】“物联网+区块链”应用与发展白皮书-2019

专知会员服务

94+阅读 · 2019年11月13日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

专知会员服务

149+阅读 · 2019年11月8日

《云计算发展白皮书（2019年）》，55页PDF，中国信息通信研究院编

专知会员服务

39+阅读 · 2019年11月7日

阿里云发布机器学习平台PAI v3.0

雷锋网

13+阅读 · 2019年3月22日

爬网页、洗数据、创建海量数据集一条龙！英伟达工程师小姐姐开源工具库

量子位

9+阅读 · 2019年3月2日

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

阿里巴巴数据库技术

10+阅读 · 2018年12月12日

资源 | 25个深度学习开源数据集

人工智能头条

4+阅读 · 2018年4月22日

业界 | 百度提出机器阅读理解技术V-NET，登顶MS MARCO数据集榜单

机器之心

6+阅读 · 2018年2月22日

刚刚，阿里开源了一个重磅AI炸弹！

前端大全

5+阅读 · 2018年2月6日

阿里给程序员准备的开源年货，你收到了吗？

前端大全

3+阅读 · 2018年1月23日

一篇文章读懂阿里企业级数据库最佳实践

阿里巴巴数据库技术

5+阅读 · 2017年12月20日

刚刚，阿里发布了一个技术重磅炸弹！

数据分析

6+阅读 · 2017年12月20日

谷歌用3亿张图做了个深度学习实验结论：数据还是越大越好

深度学习探索

3+阅读 · 2017年7月12日

Graph Analysis and Graph Pooling in the Spatial Domain

Arxiv

5+阅读 · 2019年10月3日

Scalable Attentive Sentence-Pair Modeling via Distilled Sentence Embedding

Arxiv

3+阅读 · 2019年8月14日

Factor Graph Attention

Arxiv

6+阅读 · 2019年4月11日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

21+阅读 · 2018年12月25日

dynnode2vec: Scalable Dynamic Network Embedding

Arxiv

15+阅读 · 2018年12月6日

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

Arxiv

15+阅读 · 2018年5月24日

VizWiz Grand Challenge: Answering Visual Questions from Blind People

Arxiv

9+阅读 · 2018年2月22日

Single-Perspective Warps in Natural Image Stitching

Arxiv

4+阅读 · 2018年2月13日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

Multilingual Topic Models

Arxiv

3+阅读 · 2017年12月18日

VIP会员