【与AlphaGo的同与不同】阿里巴巴双11上任AI调度官达灵，数据中心资源利用率提升至90%以上

会员服务 ·

【与AlphaGo的同与不同】阿里巴巴双11上任AI调度官达灵，数据中心资源利用率提升至90%以上

2017 年 11 月 6 日 新智元 胡祥杰

【AI WORLD 2017世界人工智能大会倒计时 2 天】

“AI达摩”齐聚世界人工智能大会，AI WORLD 2017议程嘉宾重磅发布

在2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上，我们邀请到阿里巴巴副总裁、iDST副院长华先胜，刚刚当选ACM MM 2020 大会主席的华院长有什么跟大家分享，欢迎关注。

抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

大会官网：http://www.aiworld2017.com

新智元报道

作者：胡祥杰

【新智元导读】双十一来临前，阿里发布了数据中心AI调度官“达灵”，达灵”通过应用强化学习、组合优化等技术，可以在复杂环境中自行学习判断，作出一系列比如错峰排布、碎片规整等聪明的决策，从而全局最优化集群的资源利用率以及稳定性，使得数据中心的效率利用率维持在 90% 以上。达灵涉及到强化学习和智能决策等，与DeepMind、OpenAI的核心技术方向非常相似。我们专访到了“达灵”的负责人朱胜火博士，他对最新的AlphaGo Zero的工业化之路提出了一些思考。金榕对朱胜火博士的评价是“没有任何算法能够难倒他”。

AlphaGo Zero 横空出世让大家开始惊叹 DeepMind 在人工智能技术上所取得的进展超乎想象。谷歌当年以超过4亿美元的价格买入Deepmind，现在也看到了一些实际的回报。

此前，谷歌使用DeepMind提供的AI技术，在数据中心机房的能耗上获得了大幅的削减：他们使用机器学习，对机房的PUE指标趋势进行预测，从而指导制冷设备的配置优化，减少了闲置的用于制冷的电力消耗。据说，这项技术能够为谷歌减少15%的数据中心整体耗电量。

谷歌数据中心15%的电量是怎样的概念，有媒体报道说，换算出来是上亿美元。AI公司不仅是技术的创造者，更是技术的使用者，并且已经成功地从这些技术中获得丰厚的利益。

阿里巴巴年度重头戏“双11”来临前，11月6日，阿里巴巴数据中心AI调度官“达灵”正式上任，准备迎接天猫双11的挑战。

据介绍，“达灵”的职责包括：为各类应用快速分配计算资源；监督是否有服务器偷懒，不断搬运应用确保均衡；准确杀死存在异常的机器等。

阿里巴巴iDST机器学习算法负责人朱胜火博士在接受新智元的专访时介绍说：“达灵“是阿里巴巴iDST智能决策团队的一个产品，这个团队专注于与机器智能决策相关的深度学习、运筹优化技术的研究改进，已在集团内外电商、物流、计算资源等多个领域得到应用。“达灵”的工作首先是在集群监控数据之上，建立起很多个深度学习、在线学习的模型，由此对集群内每一台机器、每一个应用，当前和未来的状态都了然于胸。在此基础上，“达灵”通过应用强化学习、组合优化等技术，可以在复杂环境中自行学习判断，作出一系列比如错峰排布、碎片规整等聪明的决策，从而全局最优化集群的资源利用率以及稳定性。

朱胜火博士是2014年阿里巴巴iDST的初创成员。目前的主要的工作方向是机器学习及优化技术方面，他带领团队把智能决策应用到计算资源优化、新零售、智慧物流等各个行业。之前，他工作于NEC北美实验室和亚马逊公司，2004年毕业于美国罗切斯特大学获计算机博士学位。他有25项专利发明，并发表100多篇学术论文，在统计机器学习方向及其应用于机器视觉、数据挖掘、信息检索、自然语言处理、机器人、数据管理、分布式系统等领域。

顶尖刺客“达灵”，杀死异常机器准确率94%，让工程师“喝茶过双11”

考虑一道数学题：有10万件大小不同的商品，要平均的放到1万个箱子里，应该如何分配？

对于人类来说，这还是一个可解的问题。如果问题更难一点：这10万件商品会随时变大变小，而且还有“矿泉水不能压在薯片上”等一大堆限制条件，如何在几秒钟内给出最均衡的装箱方案？

阿里巴巴的工程师每天都会面对这类问题。无数个应用对服务器的需求每时每刻都在变化，还有新的应用不断加入，如何才能把这些应用均衡的分配到数万台不同规格的机器上。

打开手机淘宝，首页可以看到“有好货”、“猜你喜欢”等这样的常用功能模块。以前，要人工为每一个模块分配服务器数量以及监督运行情况。去年双11，就有近20名工程师负责这样的工作，还需要设置组长、总指挥居间协调。即便如此，资源利用率依旧很低。

为此，阿里巴巴搜索团队对“达灵”进行了大量训练和工程化，在实习期“达灵”就完全替代了人工，将资源利用率提高了一倍，这相当于节省了一半的机器。

“这套算法能够快速给出最优的部署方案，并且根据访问量不断搬运应用和数据，确保没有一台机器偷懒”。阿里巴巴资深搜索研发专家郑南说，我们要做的就是不断用数据喂养她，提供表格数据大小、访问量以及目前的部署方案等信息，省下的就是喝着茶看她的表演。“她甚至可以在线上克隆一个真实的服务，自己进行压力测试，以判断方案是否最优。”

朱胜火博士说：“双11”带来巨大的访问量，尤其，峰值的访问量是对数据中心的重大挑战。在这种情况下，决策反应速度要非常迅速。集团经过多年的实战演练，工程师们总结了很多宝贵的经验。这些“双11”的运维经验都是靠“人肉”堆出来的，工程师们很辛苦。今年我们CTO提出“喝茶过双11”，就是靠经验的积累和机器智能来确保机器的稳定性，让运维工程师们轻松一些。机器学习在现状的识别，需求的预测，决策优化上都做了一些工作，比如，对应用使用率的峰值谷值的预测可以有效地把应用错峰排布。

阿里巴巴遍布全球的数据中心如果有一台机器发生异常，未被及时处理，会带来什么损失？天猫双11期间，可能会是近百万用户下单失败。

为了避免这种情况，每年双11都会有大量的工程师紧盯着集群的健康情况。如果发现有不正常的机器，马上进行手工隔离，甚至直接下线，业内俗称“杀机器”。

但从出现异常、被发现到处理完成，整个过程有时会长达10分钟。阿里巴巴调度系统资深专家丁宇说，“之前我们已经做到了人能够做的极限。去年，我们开始探索用人工智能技术寻求突破，把时间、负载、服务状态等不确定因素通过数据算法关联，最终找到了问题的解法”。

今年丁宇团队和“达灵”合作，对“达灵”进行深度改装，实现了对异常机器更精准、快速的探测。算法每天会采集29亿条机器运营状态，在之前的测试中，日均杀死异常机器1000次左右，在大促期间调度准确率达到94%，时间只需要2秒钟。

据介绍，“达灵”将数据中心资源利用率可以提升到90%以上，并能准确发现异常机器。在行业中，数据中心90%的资源利用率是怎样的一种概念？

朱胜火博士介绍，在这一阶段，“达灵”将各个环节管理的资源利用率累计提高了一倍，并且实现无人化分配数据资源，大量节省了人力资源。由于环境各异，目前这个在行业中没有一个标准的衡量方式。为了获取可对比的效果，阿里巴巴开放了集群管理系统数据，同时他们也在准备相关任务的天池竞赛。

目前“达灵”仅仅做了初步的工作，下一步他们会将“达灵”深入到数据中心的各个环节，从应用的优化，容器的调度，机架的管理，能耗的控制，等等。优化空间很大，挑战也很大。同时，也会将“达灵”的伙伴们推向其他的行业，比如，新零售，物流，制造业，交通等等。

“其实达灵的前身真的是仓库管理员，就是为了解决包裹装箱的难题”，阿里巴巴iDST团队主任工程师杨森透露。

一年前，iDST和菜鸟网络的算法工程师共同研发了一套算法，能够在顾客下单的瞬间，对商品的属性、数量、重量、体积，甚至摆放的位置都综合进行计算，可迅速地与箱子的长宽高和承重量进行匹配，并且计算出需要的几个箱子，商品在箱子里面如何摆放最节省包装。整个计算过程，不足1秒。

AI介入后，菜鸟网络的仓库较过去减少5%以上的包装材料。这是什么概念呢？以2015年天猫双11当天产生的约4.67亿包裹数来算，如果用上这个技术，一天能节省2300万个箱子。

杨森说，基于同样的理念，我们将这套算法带到了数据中心，研发出了服务器调度官“达灵”。达灵会利用深度学习技术对集群机器的系统状态进行建模，可以预估接下来数小时内对CPU、内存等核心资源使用量，以及是否即将出现异常。在此基础之上，利用运筹优化的技术，实现最优化利用率与稳定性的决策控制。

解密“达灵”：与AlphaGo的同与不同

虽然同样是用于数据中心，但是可以看到，阿里巴巴的方向和谷歌有些不一样：谷歌的AI主要目的是降低能耗，而阿里巴巴则是提高资源利用率。

强化学习算法是谷歌DeepMind的的一个强项，在多个版本的AlphaGo中我们都看到了这一点。朱胜火博士对新智元说，强化学习是他们实现最优化决策时的一种重要技术，特别是在一些涉及到大量复杂的依赖、互斥等组合关系的场景，它背后的数学模型本质上拥有一个无穷大的决策空间，这时候强化学习可以帮助我们很好的解决这一类问题。

“达灵”看起来更多的涉及“决策”层，与目前大热的识别等任务和应用相比，决策是一个更为复杂的过程。现在人工智能中“决策”你认为做到什么程度了，难点在哪？

朱胜火博士对新智元说，智能的体现就涉及决策。目前一些识别的任务使用简单规则的决策。另一类大热的任务，比如AlphaGo，使用强化学习算法，获取基于价值函数的决策。针对数据中心的计算资源问题，“达灵”包括对现状的识别，对未来需求的预测，对复杂问题的决策。对大规模组合问题的决策是一个复杂的问题，往往可扩展性非常不好，这对人类智能也是一个挑战。机器智能在复杂决策的成功案例还是很少，更不用说通用的决策算法。把“达灵”定位在数据中心的决策优化上，我们可以就具体问题做更好的假设。

他说，DeepMind 在深度学习领域做了很大的努力，对围棋这类复杂的游戏构建了一个合适的深度网络来逼近其价值函数，利用谷歌强大的计算能力有效地解了这个问题。AlphaGo Zero把这个解决方案进一步的推进，使用了更合适的深度网络模型，利用有效的计算找到其合理的参数。

但是，工业界的问题往往不能利用像围棋这样一个封闭空间的假设。难点有很多，比如，第一，协作问题。围棋是一个零和问题，对手是对抗性。简单的零和问题在上世纪五十年代就有很好的研究。复杂的零和问题在于计算量的问题上，AlphaGo在围棋的场景下有效地逼近这个解。除了一小部分零和问题，现实的问题大多数是非零和的，比如协作问题，包括人机协作和机器间的协作，我们希望获得双赢的结果。但是现实情况非常复杂。第二，不确定的问题。在非对抗的环节下，合作伙伴或环境存在未知的因素。因此，我们需要对其建立一些假设，基于假设设计模型，通过数据来估计模型，等一系列统计机器学习要解决的问题。在现实情况下，一些假设经常存在很多问题，需要长时间人类经验的参与和调优，这些经验包括业务运营的经验，算法专家的经验，等等。还有很多其他的难点。

日前，国际计算机学会ACM(Association for Computing Machinery )正式宣布，阿里巴巴iDST副院长、IEEE院士华先胜博士成为 2020年ACM Multimedia（简称ACM MM）大会主席，并由阿里巴巴与意大利佩鲁贾大学和香港中文大学共同举办ACM MM 2020。

华先胜是视觉识别和搜索领域的国际级权威学者，曾获选国际电气与电子工程协会院士（IEEE Fellow）、美国计算机协会ACM2015年度杰出科学家。

2天后，在国家会议中心，由新智元主办的AI World 2017 世界人工智能大会上，华先胜博士将出席并发表演讲。这位 ACM MM 2020大会主席将会带来哪些精彩分享，欢迎关注。

深入了解AI 技术进展和产业情况，参加新智元世界人工智能大会，马上抢票！