再而衰！对战中国大神再次战败，OpenAI Five发文告别TI8

2018 年 8 月 24 日 大数据文摘

大数据文摘编辑组出品

刚刚，OpenAI Five 在DOTA 2 全球顶级赛事 TI8（The International DOTA2 Championships）中完成了与人类玩家的第二场“表演公开赛”，没有意外，45分钟的激战后，OpenAI Five再次打出GG（GOOD GAME，意味认输）。

不过，本场比赛给了中国玩家一个惊喜，本次OpenAI Five对战的是来自中国的五位前职业选手——中国DOTA2圈元老级人物：Burning（徐志雷）、Ferrari.430（骆非池）、xiao8（张宁）、sansheng（王兆辉）、rOtk（白帆）。

OpenAI CTO，同时也是OpenAI Five的工程领队Greg Brockman在赛前表示，遵守三局两胜的战局。也就是说，OpenAI Five与人类团战的本轮对决以失败告终，本次的TI8之旅也画上了句号。

赛后，Greg Brockman依然发推祝贺中国五位选手获胜，OpenAI官方也发布博文，总结了两场比赛👇

比赛速览

比赛规则与昨日与第一场比赛的规则一样，都是选择范围都限定在18个英雄中，并且两队所使用的人物都是机选，这样就充分照顾到了英雄阵容的胜率问题。游戏中的限制也和昨天的一样，没有圣剑，没有分身和幻象，中单英雄不允许出魔瓶；没有扫描；依然是一只信使。

比赛采用了和昨天一样的阵容，不过AI和人类进行了互换。（通过猜硬币决定选择哪队英雄）

人类阵容：矮人直升机、巫妖、死亡先知、寒冰室女、潮汐猎人
OpenAI的阵容：恶魔巫师、瘟疫法师、巫医、狙击手、斧王

OpenAI Five开局很强势，对人类玩家一直压制，除了开场人类玩家拿下一血，比赛进行到了32分钟才将人头数拉平。其实，在对线和出装上面人工智能有着非常大的缺陷，这一点在第一场比赛就已经看出来了。整个比赛过程，人类队打的还是比较轻松，毕竟是专业玩家，打出了专业水准。

OpenAI Five 在比赛过程中，上场比赛的AI操作带来的疑惑也带到了这一场，例如不知何故在自家高地插眼，比赛后期在自家门口插了一排眼。

从开场到结束，人类虽然在中前期人头数落后，但是在经济上的优势却贯穿全场，这也是人类能最后获胜的一个重要原因，例如最初的经济差距只有两千左右，中期后期的经济差距达到了一万左右，并且还有一些经验优势。在如此大经济差距下，OpenAI Five 也放弃了挣扎，给自己得出了只有1%的胜率。

到最后45分钟的时候，不出所料，人类打爆遗迹，获得胜利。

赛后，圈内普遍认为AI的反应确实很快，而且他们对血量的把握远胜人类玩家，可以更好的掌握进退的时机。但这其实是一些low level的动作，AI在这方面做的比人类好毋庸置疑，但是因此赢得先机会让人觉得赖皮。

这样的打法在前期可以和人类抗衡，而且打的还算可以，但是到了中后期的明显弱势，说明了AI的全局观还差很远，在策略这种高层次的动作上，是还有很大的改进空间。

因此，OpenAI后期肯定要改进AI的高层次的策略和大局观。以AlphaGo为例，它的搜索树可以在下棋的时候搜的很深，也就是说可以看到当前局面后面的很多步的各种情况，OpenAI目前在这一点上显然还不够好，这也是由于游戏的复杂度要远远高于围棋。

经过这次比赛，OpenAI下一步应该会注重在DOTA多智能体协作的探究，包括多智能体模型如何构建和如何训练的问题。比如多智能体这个领域的最新进展、博弈论领域的最新进展和其他一些相关领域的最新进展去获取灵感。

OpenAI发博文总结比赛：规则改变限制了Five发挥

赛后，OpenAI发布了一篇文章，讲述了组织这两场比赛的原因，也详细叙述了近日的两次失败，以及接下来的目标。

OpenAI在博文中称，与之前相比，本次比赛失败的最大原因是规则的改变：之前的Benchmark比赛配备了一项重要的限制条件：允许每个英雄一个自身的安全信使（一个向你的英雄传递道具的单位）。而在这两日的比赛中解除了这项限制。

针对这一规则变化，一位不愿透露姓名的相关研究者认为这对AI的表现有很大影响。“首先是训练时间短。短的话，训练的局数不够，AI没见过的局面多，很多情况会不知道怎么办，也就是说并没有收敛。所谓收敛就是说ai的表现会趋于稳定，达到一个最优解或较优解。

可以回顾AlphaGo自己给自己下棋，他是见过了各种局面，才可以应对的比较好。像这种即时战略游戏，动作空间更大，所需要的训练成本也会更高，这是比较显然的”

另一位相关学者给出了一个通俗的解释：“可以拿职业运动员和业余运动员作类比，职业运动员相当于训练了很久的AI（总体来说比赛结果相对稳定），业余运动员相当于训练了很短时间的AI（他可能在某一次比赛中结果不错，但总体上来看比赛结果是不稳定的，时好时坏）。从另一个角度来说，训练时间由短到长对应于：从偶然到必然。“

以下为OpenAI博文全文👇

OpenAI Five 在DOTA 2 全球顶级赛事 TI8（The International DOTA2 Championships）中与人类职业玩家打了两场，输了两场。其实在比赛过程中，人工智能在前期，特别是在前20~35分钟，一直占据着上风。

这次比赛与17天前的Benchmark赛相比，有以下特点：

这次的对手更加强大
英雄阵容由第三方提供
比赛规则的一些限制对AI不利

因为OpenAI Five的五名AI“队员”是从零开始训练的，所以这场专业比赛中，AI的表现仍然令人兴奋。与人类顶级选手对决，如果赢得了比赛当然是非常好，如果比赛输了也会给我们带来非常宝贵的经验，帮助OpenAI Five更上一层楼。

从五月份开始，OpenAI Five 的进步曲线图

规则变化

这次比赛的目的是想看看OpenAI Five 的能力与世界顶级玩家的差距在哪里，与之前的比赛相比，这次的比赛更加正式也更加真实。在比赛之前，我们并不知道将会与谁交手，因为这取决于有谁愿意与我们比赛。

很高兴有如此强大的队伍与我们比赛，相对于之前的Benchmark，我们这两天获得了更多的宝贵经验。

OpenAIFive的第一场比赛是昨天与paiN的对决，虽然这支战队在角逐冠军的时候被淘汰了，但是做为Dota2 18支顶级战队中的一支，仍然有着强大的实力。并且，这支队伍在职业锦标赛中平均赢得了350000美元。

第一场比赛持续了51分钟，这个时间有些略长，因为一局游戏平均下来只有45分钟。在游戏的中期OpenAI Five重新获得了一些优势，但是最终还是输给了人类玩家的策略搭配。

第二场比赛的对手是中国名人堂的选手，他们每一位都身经百战，这场比赛持续了45分钟，和上一局一样，在中前期OpenAI Five占据着上风，但是在一系列激烈团战后，OpenAI Five由优势转为劣势，然后输掉了比赛。

在之前的Benchmark比赛中，我们配备了一项重要的限制条件：允许每个英雄一个自身的安全信使（一个向你的英雄传递道具的单位），而不是一个团队的可被破坏的信使。而我们在这两日的比赛中解除了这项限制。

信使可以不断运送英雄的恢复品，使得OpenAI更容易保持英雄的状态，频繁的参与到对敌方的进攻中。在一场Dota比赛中，状态较差的英雄可能会放弃进攻，选择回家补充状态。很多观众认为，附加的信使会让游戏看起来不像“真正的Dota”。

我们在六天之前展开训练（信使和其他项目一样，是代码中的一项）。当我们认为单一信使会暂时降低Five的表现时，Dota社区则认为单一信使会让比赛更加激动人心。

接下来的目标

我们不认为信使的变化是失败的原因。我们认为，我们还需更多的训练，进行漏洞修复，以及将模型中最后一块照本宣科的部分移除。我们期待着将OpenAI Five推向下一个等级。

这两日的对战重新让我们认识到了Dota人机对战中的差异，也给了我们更多的想象空间。但是OpenAI Five的设计并不只是针对Dota 2这样一个游戏，它更多的技术探讨是如何将AI技术建立在一个安全的沙盒中，而这个沙盒会帮助我们在未来建立先进性的系统。

相关内容

OpenAI

关注 27

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。