中国战队包揽234却无缘冠军！OpenAI 的 Dota2 机器人强在哪

2017 年 8 月 13 日 数据玩家

转自新智元（微信号：AI_era）

【新智元导读】DOTA2 经典赛事TI7国际邀请赛决出最后冠军，中国团队虽占据234名但无缘冠军。回顾本届比赛，Open AI 的机器人因为战胜了人类玩家而大放异彩，团队也在Twitter上宣布欢迎更多玩家挑战和试用自己的技术。本文带来深度解读，战胜了人类玩家的Open AI 机器人究竟强在哪里？与围棋比赛中的AlphaGo相比是强还是弱？未来在虚拟游戏中，人类是否对机器毫无胜算？

Dota2 TI7决赛，中国战队惜败无缘冠军，包揽2、3、4名

8月13日，DOTA2 经典赛事TI7国际邀请赛在美国西雅图钥匙球馆举行，决赛由中国战队 NewBee 对阵国际战队 LIQUID，经过三场大战，最终 NewBee 0:3告负，LIQUID夺得冠军。

总决赛上 NEBWEE 状态非常低迷，而Liquid势不可挡，完成一穿六的神话，三比零击败NEWBEE成功夺冠。

今年 TI7 的奖池已经达到两千四百万美金的高度，折合成人民币约一亿六千万。此次TI7 国际邀请赛前五名有四支中国战队，前四名有三只中国战队！这四只战队分别是NB、LGD、LFY、IG。中国战队斩获了此次比赛的第二名、第三名和第四名，可惜无缘冠军。

TI7上，最夺人眼球的不是人类冠军，而是 AI

然而 TI7 上最夺人眼球的恐怕已不再是人类玩家，而是在表演赛上击败了魔兽老兵 Dendi 的 OpenAI 的 Dota2 机器人。

在昨天的 1 v 1 对战中，OpenAI 设计的机器人击败了职业玩家 Danylo "Dendi" Ishutin。OpenAI 的机器人在首场对战中用时十分钟击败了 Dendi，之后 Dendi 在第二局对战中退出并拒绝再战第三局。

正如一位知乎用户评论的：这个AI的每一步操作都令人震惊，Dendi居然在短短几分钟内就技不如人，甘拜下风。这位乌克兰老司机不远万里来到西雅图被AI虐的故事，简直是闻者伤心，听者流泪。

比赛过程中，Dendi 曾自言自语地向机器人“求饶”——“请放过我吧。”他说。这一幕让人不禁想起柯洁和 AlphaGo 在乌镇对决时的潸然泪下。

50位“影魔”暂时抵挡住了 AI 成为 Dota 主流训练方法的进程

对于魔兽玩家来说，OpenAI 的这款机器人最大的意义可能是成为一款训练利器。OpenAI 的 CTO Greg Brockman 表示：在 TI 上，我们派出 AI 和其中的多位高手进行了比赛，在比赛中，AI 展现出了很强的鲁棒性和技巧，许多职业选手希望能持续和我们的 AI 比赛，并考虑要把它当做是一种训练手段。

于是，OpenAI 今天正式发了推特，邀请 Dota 职业战队来使用他们的 AI 作为训练手段，并很希望看看“是否有用”。

作为给这些职业玩家的提示，我们友情提示一下，这个训练对手有以下特点：

AI 本身是使用 Self-Play 的方式从零基础训练而成为顶尖高手的。它自己的训练时间并不长（两周），自我训练的比赛也只有“区区”数千次（相对于 AlphaGo 的训练盘数）。因此，这个 AI 目前还处于比较稚嫩（相对于它能达到的“境界”）的时期；

这个 AI 更讲求策略而不是“手速”（每分钟动作），它的“手速”只是一般人类玩家的水平；

从昨天的视频中可以看到，这个 AI 在一定程度上能预测你的行动，也会在不熟悉的场景下即兴发挥。特别的，它还会一些“trick”，来误导你。

天才少年 Arteezy_Artour Babaev 在和 AI 对战后表示：“输给一个机器人是让人觉得不舒服。但看了回放，我发现我确实能学到一些东西……有些事情，别人告诉你是一回事，你自己亲身经历了以后，是另一回事。”

Brockman 还表示，特别让他们感到高兴的一点是，除了能让职业玩家从和 AI 的比赛中获益，业余玩家也一样能从和 AI 的比赛中得到提升。

和 AI 试玩了一盘游戏的 Jake“SirActionSlacks”Kanner 表示，赢得一场 Dota 的方式有很多种，而 AI 所用的一些“招式”是他想象不到的。“所以 AI 不是简单地攻击身边的敌人，它是有选择的？”他问 Brockman。“当然。”Brockman 说。

然而，就在 AI 似乎要成为非常有潜力的训练方法时，昨天，似乎是为了捍卫人类玩家的尊严，有50位“影魔”都击败了 OpenAI 的机器人。

克它的战术似乎已经找到了。其中一位玩家介绍自己的经验：

“我就是击败Open AI 的 AI 的50人之一。

一般要赢的策略是占领第一座塔。在0：00，你要激怒敌人的线小兵(俗称一波兵，creep wave），让他们开始跟随你。然后你围绕丛林转一圈，敌方的小兵将开始形成一个可以跟随你的congo line。然后，您可以绕过丛林，以便在下一波兵来临时，您可以再次激怒他们，并继续围绕圈子走动。当你的一波兵攻击塔时，AI会烧毁画符，由于某种原因，它无法真正地决定追逐你或捍卫塔。所以经过约5分钟的时间，你的一波兵将最终毁灭塔，这样你就能赢得1v1比赛。

我使用的是风灵之纹（wind lace ）+ 3个药膏。你可以以额外的运动速度超越波兵和AI，并且药膏将给您足够的维持力，让你可以挺过波兵几分钟的的攻击。你也可以使用信使给你更多的药膏，但我发现它只能使用1个药膏。”

看来，在艾泽拉斯的世界中，AI 将和人类共同提高。

对于 AI 来说，更大的挑战在于多智能体协作

Brockman 自己曾表示：下一步研究将是 5v5 比赛，我们希望做出 5 个相互协作的 AI，击败人类战队。另外，我们也期待尝试把 AI 和人类放在同一战队中，协作取得胜利。

关于这一点，卡耐基梅隆大学机器人系博士，Facebook人工智能组研究员田渊栋在知乎上表示：OpenAI只是宣布一对一能胜职业选手。一对一相对容易，像星际这边两队兵对战已经可以打得不错了。听下来是用Self-play的办法让Bot去和自己玩不断提高，五对五还没有结果。

日前，DeepMind 与暴雪一起，发布了一套名为 SC2LE （StarCraft II Learning Environment）的工具组件，这套工具组件将加速即时策略游戏星际争霸2 中的 AI 研究。

国内AI 资深专家袁泉此前曾深入研究过星际争霸中的若干AI问题，和UCL共同发表了多智能体协作网络BiCNet，第一次展现了AI在星际微观战斗中的五类智能协作方式。他对新智元表示，星际争霸 2 中目前的难题主要是“Full Game”的问题。

Dota 2 的 AI 和星际2 的AI，一个能在 Full Game 中取胜，却不太懂协作；一个善于协作，却在Full Game 中难敌人类。这一方面当然和两个游戏各自的特点有关，另一方面则可以看出 AI 训练方式上的差异。我们期待能有关于二者技术的更多对比。

炒作还是事实？在目前条件下击败人类玩家实际上比在围棋比赛中击败人类要容易得多

关于 OpenAI Dota 2 机器人的能力，一篇题为《炒作还是事实？对 OpenAI Dota 2 机器人的几点看法》的文章进行了比较详细的分析：

今天，我读到关于OpenAI的DotA 2机器人在 The International 上击败人类玩家的新闻时，我兴奋得跳了起来。对于一个电竞迷，我从来没有玩过DotA 2，但是我经常在Twitch上观看其他电子竞技比赛，甚至在高中时也是半专业的玩家。但更重要的是，像DotA这样的多人在线战斗竞技（MOBA）以及像“星际争霸2”这样的实时战略（RTS）游戏，一般都被认为是当前人工智能技术难以企及的。

这些游戏需要长期的战略决策以及多人合作，并且比国际象棋，围棋或Atari游戏具有更复杂的状态和行动空间，所有这些项目都是 AI 技术在过去几十年中已经“解决”的。 DeepMind 已经在星际争霸 2 上工作了一段时间，并且刚刚开源了他们的研究环境。但是到目前为止，研究人员还没有取得重大突破。大家普遍认为，我们距离在星际争霸 2 上击败顶级人类玩家至少还需要 1—2 年。

这就是为什么 OpenAI 的新闻如此让人震惊。怎么会这样呢？最近有没有我没有觉察到的突破？当我开始更多地了解DotA 2机器人正在做什么，它是如何训练的，以及使用什么游戏环境，我得出的结论是，这是一个令人印象深刻的成就，但不是新闻界所认为的 AI 突破。这就是这篇文章要讲的东西。我想提供一个清醒的解释：他们带来了什么新东西。有一个过度夸张人工智能的进步是很危险的，比如以下这两条推特就很容易误导大众：

首先要说明的是，这些夸张的报道和错误的假设并不是OpenAI研究人员的错。 OpenAI通常都对其研究的贡献和局限都表述得非常直接和明确。我相信在这件事上也是一样的。 OpenAI还没有公布他们的解决方案的技术细节，所以对于非专业的人来说，很容易就会得到错误的结论。

我们先来看看DotA 2机器人解决的问题实际上有多困难。比起AlphaGo又难在哪？

• 1v1 和 5v5 没有可比性：5V5 是DotA 2的一个经典游戏，这些游戏需要高级策略，团队沟通和协调，通常需要45分钟左右的时间。 1v1游戏会受到更多限制，两名选手基本上沿着单线行驶，并试图相互杀死，通常在几分钟内结束。在1v1中击败对手需要的是机械技能和短期战术，不涉及任何如长期规划或协调的事，但二者是当前的AI技术面临的大挑战。事实上，你可以采取的有用的行动的数量少于围棋的游戏。有效状态空间（玩家对游戏中目前正在发生的想法），如果以智能方式表示，应该比围棋还要小。

• Bot能获得更多的信息: OpenAI机器人（很有可能）是基于该游戏API的开发的，可以访问人类无法访问的各种信息。即使OpenAI研究人员限制访问某些类型的信息，机器人仍然可以访问比人类更准确的信息。例如，技能只能在一定范围内击中对手，并且人类玩家必须看屏幕并且评估当前与对手的距离，这需要反复练习。机器人知道确切的距离，并可立即决定使用说明技能。获得各种精确的数字信息是一个很大的优势。事实上，在游戏过程中，人们可以看到机器人好几次都是在距离的最大限制上使用技能。

• 反应时间: 机器人可以立即反应，人类不能。再加上上述的信息优势，这是另一大优势。例如，一旦对手所处距离超出攻击范围，机器人可以立即取消它。

• 学习操作一个单一的特定角色：游戏里总共有100个不同的角色，具有不同的天赋能力和优势。机器人学习玩的唯一的角色——Shadow Fiend，通常会立即进行攻击（而不是在一段时间内持续的更复杂的技能），并从所知道准确的距离和快速的反应时间中获益 - 这是机器人擅长的。

鉴于1v1主要是机械技能的游戏，机器击败人类玩家并不奇怪。由于环境受到严格限制，（可能）限制了一系列可能的行动，而且几乎没有必要进行长期的规划或协调，我得出的结论是，在这样的条件下击败人类玩家实际上比在围棋比赛中击败人类要容易得多。

我们并没有因为算法多聪明就在AI上忽然取得了进步，它之所以起作用是因为我们的研究员足够聪明，在目前条件的限制下做了正确地设定。

这一机器人的训练时间大概是2周左右，也证明了上述的推测。 AlphaGo需要在谷歌的GPU集群上进行数月高度分布的大规模训练。自那时以来我们取得了一些进展，但那并不是将计算要求降低一个数量级的东西。

现在，批评已经够多了。媒体可能对这件事有一点过度炒作，但它确实有一些非常酷、非常令人惊讶的地方。显然，这是大量具有挑战性的工程作业和团队合作的结果。

完全通过self-play训练：这个bot不需要任何的训练数据。它也不是从人类的演示学习。它是完全随机开始的，并且不断地以自己为对手进行游戏。虽然这种技术并不是全新的，但令人惊讶（至少令我惊讶）的是，正如有评论指出的，bot学习了人类玩家经常使用的技巧。我对Dota 2 的了解不是很多，不能判断这点是否很厉害，但我觉得这非常酷。这个bot也可能学习了人类玩家甚至不知道的其他技巧。这与我们在 AlphaGo 中看到的类似，就是人类玩家开始从 AI 的令人意想不到的动作中学习，并调整自己的游戏策略。

AI +电子竞技的重要进步：在具有挑战性的环境（例如Dota 2 和 Starcraft 2）中测试新的AI技术是非常重要的。假如可以说服电子竞技社区和游戏发行商，我们可以通过将AI技术应用于更多游戏来提供价值，这有助于AI更快发展。

部分可观察的环境：虽然不清楚OpenAI的研究人员如何用API处理这个问题的细节，但人类玩家只能看到屏幕上的内容，并且视野可能受到限制，例如上坡时。这意味着，与围棋、国际象棋或Atari等游戏不同，我们是处于部分可观察的环境——我们无法访问有关当前游戏状态的完整信息。这些是很难解决的问题，也是当前的一个活跃研究领域。话虽如此，目前还不清楚1v1 Dota 2竞技中的部分可观察性究竟有多重要——没有多少可以制定战略的地方。

人工智能领域排名第一的社交平台，专注报道人工智能领域的前沿资讯、产业分析和技术干货

限时干货下载

Step 1：长按下方二维码，添加微信公众号“数据玩家「fbigdata」”

Step 2：回复【2】免费获取完整数据分析资料「包括SPSS\SAS\SQL\EXCEL\Project!」

登录查看更多

相关内容

OpenAI

关注 27

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【DeepMind硬核课】卷积神经网络图像识别前沿进展，附110页ppt与视频

专知会员服务

105+阅读 · 2020年6月27日

【CCF计算机视觉专委会】未来5-10年计算机视觉发展趋势，

专知会员服务

104+阅读 · 2020年5月20日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日