会员服务 ·

资源 | Alibaba Cluster Data 开放下载：270 GB 数据揭秘你不知道的阿里巴巴数据中心

2018 年 12 月 30 日 CSDN云计算

戳蓝字“CSDN云计算”关注我们哦！

CSDN云计算授权转载自阿里系统软件技术

作者：临石

打开一篇篇 IT 技术文章，你总能够看到“大规模”、“海量请求”这些字眼。如今，这些功能强大的互联网应用，都运行在大规模数据中心上。然而，对于大规模数据中心，你又了解多少呢？

实际上，除了阅读一些科技文章之外，得到关于数据中心的信息非常难得。数据中心每个机器的运行情况如何？这些机器上运行着什么样的应用？这些应用有什么特点？对于这些问题，除了少数资深从业者之外，普通学生和企业的研究者很难了解其中细节。

什么是 Alibaba Cluster Data?

那么，实施了一系列优化手段之后的计算机集群究竟是什么样子？混部的情况究竟如何？

为了让有兴趣的学生以及相关研究人员，可以从数据上更加深入地理解大规模数据中心，我们特别发布了这份数据集（Alibaba Cluster Data V2018）。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中，你可以详细了解到我们是如何通过混部把资源利用率提高到 45%；我们每天到底运行了多少任务；以及业务的资源需求有什么特点。如何使用这份数据集，完全取决于你的需要。

这个数据可以做什么？

刚刚发布的 Alibaba Cluster Data V2018 包含 6 个文件，压缩后大小近 50GB（压缩前 270+GB），里面包含了 4000 台服务器、相应的在线应用容器和离线计算任务长达 8 天的运行情况。

通过这份数据，你可以：

了解当代先进数据中心的服务器以及任务运行特点；
试验你的调度、运筹等各种任务管理和集群优化方面的各种算法并撰写论文；
利用这份数据学习如何进行数据分析，揭示更多我们自己都未曾发现的规律。

上面这几点，没有接触过类似数据的朋友，可能对于这份数据的用处并没有直观的印象，下面我举几个简单的例子：

电商业务在白天和晚上面临的压力不同，我们如何在业务存在波峰波谷的情况下提高整体资源利用率？
你知道我们最长的 DAG 有多少依赖吗？
一个典型的容器存在时间是多久？
一个计算型任务的典型存在时间是多少？一个 Task 的多个 Instance 理论上彼此很相似，但是它们运行的时间都一样吗？

实际上，学者们甚至可以用这些数据作出更加精彩地分析。2017年，我们开放的第一波数据（Alibaba Cluster Data V2017），已经产生了多篇优秀的学术成果。

以下是学者们在论文中引用数据（Alibaba Cluster Data V2017）的例子，其中不乏被 OSDI 这样顶级学术会议收录的优秀文章。我们期待，未来你也能与我们共同分享你用这份数据产生的成果！

"LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18" (Best paper award!）

"Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017"

"CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018"

"The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018"

Cluster Data V2018 更出色

DAG 信息加入：我们加入了离线任务的 DAG 任务信息，据了解，这是目前来自实际生产环境最大的 DAG 数据。

究竟什么是 DAG？离线计算任务，例如 Map Reduce、Hadoop、Spark、Flink 中常用的任务，都是以有向无环图（Directed Acyclic Graph，DAG）的形式进行编排的，其中涉及到任务之间的并行、依赖等方面。下面是一个 DAG 的例子。

规模更大：上一版数据包含了约 1300 台机器在约 24 小时的内容数据，而新版 Cluster Data V2018 中包括了 4000 台机器 8 天的数据。

数据获取方式：

https://github.com/alibaba/clusterdata/blob/v2018/cluster-trace-v2018/trace_2018.md

1.微信群：

添加小编微信：color_ld，备注“进群+姓名+公司职位”即可，加入【云计算学习交流群】，和志同道合的朋友们共同打卡学习！

2.征稿：

投稿邮箱：liudan@csdn.net；微信号：color_ld。请备注投稿+姓名+公司职位。

推荐阅读

点击“阅读原文”，打开 CSDN App 阅读更贴心！

喜欢就点击“好看”吧！

登录查看更多

相关内容

簇

关注 1

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

专知会员服务

59+阅读 · 2020年6月17日

Python分布式计算，171页pdf，Distributed Computing with Python

专知会员服务

108+阅读 · 2020年5月3日

【实用书】流数据处理，Streaming Data，219页pdf

专知会员服务

78+阅读 · 2020年4月24日

经典书最新版《贝叶斯数据分析(第三版)》，677页pdf，哥伦比亚大学《Bayesian Data Analysis, 3ed》

专知会员服务

253+阅读 · 2020年4月5日

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

【2020新书】Kafka实战：Kafka in Action，209页pdf

专知会员服务

69+阅读 · 2020年3月9日

阿里巴巴达摩院发布「2020十大科技趋势」

专知会员服务

108+阅读 · 2020年1月2日

【大数据白皮书 2019】中国信息通信研究院

专知会员服务

138+阅读 · 2019年12月12日

《产业智能化白皮书》，79页PDF，清华大学全球产业研究院，百度大学Alpha学院编

专知会员服务

61+阅读 · 2019年11月9日

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

专知会员服务

149+阅读 · 2019年11月8日

【中台】阿里架构总监一次讲透中台架构，13页PPT精华详解，建议收藏！

产业智能官

39+阅读 · 2019年8月25日

携程用ClickHouse轻松玩转每天十亿级数据更新

DBAplus社群

11+阅读 · 2019年8月6日

滴滴梁李印：滴滴是如何从零构建中式实时计算平台的？

AI研习社

3+阅读 · 2019年4月19日

蚂蚁金服微服务实践（附演讲PPT）

开源中国

18+阅读 · 2018年12月21日

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

阿里巴巴数据库技术

10+阅读 · 2018年12月12日

首发！Apache Flink 干货合集打包好了，速来下载

阿里技术

4+阅读 · 2018年11月29日

资源消耗降低2/3，Flink在唯品会实时平台的应用（有彩蛋）

DBAplus社群

4+阅读 · 2018年11月1日

为什么分布式一定要有消息队列？

互联网架构师

4+阅读 · 2018年7月5日

SLA 99.99%以上！饿了么实时计算平台3年演进历程

51CTO博客

11+阅读 · 2018年4月10日

大数据24小时：腾讯云在美新增两个数据中心，依图科技与华为合作发布人工智能一体机

数据猿

4+阅读 · 2018年3月29日

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Pixel Level Data Augmentation for Semantic Image Segmentation using Generative Adversarial Networks

Arxiv

5+阅读 · 2019年2月8日

dynnode2vec: Scalable Dynamic Network Embedding

Arxiv

15+阅读 · 2018年12月6日

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

Arxiv

15+阅读 · 2018年5月24日

BigDL: A Distributed Deep Learning Framework for Big Data

Arxiv

4+阅读 · 2018年4月16日

Single-Perspective Warps in Natural Image Stitching

Arxiv

4+阅读 · 2018年2月13日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

Polypus: a Big Data Self-Deployable Architecture for Microblogging Text Extraction and Real-Time Sentiment Analysis

Arxiv

3+阅读 · 2018年1月11日

A Hierarchical Contextual Attention-based GRU Network for Sequential Recommendation

Arxiv

5+阅读 · 2017年12月7日

A Big Data Analysis Framework Using Apache Spark and Deep Learning

Arxiv

3+阅读 · 2017年11月25日

VIP会员

资源 | Alibaba Cluster Data 开放下载：270 GB 数据揭秘你不知道的阿里巴巴数据中心

戳蓝字“CSDN云计算”关注我们哦！

打开一篇篇 IT 技术文章，你总能够看到“大规模”、“海量请求”这些字眼。如今，这些功能强大的互联网应用，都运行在大规模数据中心上。然而，对于大规模数据中心，你又了解多少呢？

程序员怒了！阿里 Antd 圣诞彩蛋害我被离职了！

云计算到底是怎么玩的？

面向对象编程，再见！

AI女性界的“扛把子”，凭一己之力迫使NIPS改名

00后也会「玩」区块链，你对「朝阳」行业焦虑啥？| 圣诞特辑

相关内容

资源 | Alibaba Cluster Data 开放下载：270 GB 数据揭秘你不知道的阿里巴巴数据中心

戳蓝字“CSDN云计算”关注我们哦！

打开一篇篇 IT 技术文章，你总能够看到“大规模”、“海量请求”这些字眼。如今，这些功能强大的互联网应用，都运行在大规模数据中心上。然而，对于大规模数据中心，你又了解多少呢？

程序员怒了！阿里 Antd 圣诞彩蛋害我被离职了！

云计算到底是怎么玩的？

面向对象编程，再见！

AI女性界的“扛把子”，凭一己之力迫使NIPS改名

00后也会「玩」区块链，你对「朝阳」行业焦虑啥 ？| 圣诞特辑

相关内容

00后也会「玩」区块链，你对「朝阳」行业焦虑啥？| 圣诞特辑