大数据文摘编辑组出品
刚刚,OpenAI Five 在DOTA 2 全球顶级赛事 TI8(The International DOTA2 Championships)中完成了与人类玩家的第二场“表演公开赛”,没有意外,45分钟的激战后,OpenAI Five再次打出GG(GOOD GAME,意味认输)。
不过,本场比赛给了中国玩家一个惊喜,本次OpenAI Five对战的是来自中国的五位前职业选手——中国DOTA2圈元老级人物:Burning(徐志雷)、Ferrari.430(骆非池)、xiao8(张宁)、sansheng(王兆辉)、rOtk(白帆)。
OpenAI CTO,同时也是OpenAI Five的工程领队Greg Brockman在赛前表示,遵守三局两胜的战局。也就是说,OpenAI Five与人类团战的本轮对决以失败告终,本次的TI8之旅也画上了句号。
赛后,Greg Brockman依然发推祝贺中国五位选手获胜,OpenAI官方也发布博文,总结了两场比赛👇
比赛速览
比赛规则与昨日与第一场比赛的规则一样,都是选择范围都限定在18个英雄中,并且两队所使用的人物都是机选,这样就充分照顾到了英雄阵容的胜率问题。游戏中的限制也和昨天的一样,没有圣剑,没有分身和幻象,中单英雄不允许出魔瓶;没有扫描;依然是一只信使。
比赛采用了和昨天一样的阵容,不过AI和人类进行了互换。(通过猜硬币决定选择哪队英雄)
人类阵容:矮人直升机、巫妖、死亡先知、寒冰室女、潮汐猎人
OpenAI的阵容:恶魔巫师、瘟疫法师、巫医、狙击手、斧王
OpenAI Five开局很强势,对人类玩家一直压制,除了开场人类玩家拿下一血,比赛进行到了32分钟才将人头数拉平。其实,在对线和出装上面人工智能有着非常大的缺陷,这一点在第一场比赛就已经看出来了。整个比赛过程,人类队打的还是比较轻松,毕竟是专业玩家,打出了专业水准。
OpenAI Five 在比赛过程中,上场比赛的AI操作带来的疑惑也带到了这一场,例如不知何故在自家高地插眼,比赛后期在自家门口插了一排眼。
从开场到结束,人类虽然在中前期人头数落后,但是在经济上的优势却贯穿全场,这也是人类能最后获胜的一个重要原因,例如最初的经济差距只有两千左右,中期后期的经济差距达到了一万左右,并且还有一些经验优势。在如此大经济差距下,OpenAI Five 也放弃了挣扎,给自己得出了只有1%的胜率。
到最后45分钟的时候,不出所料,人类打爆遗迹,获得胜利。
赛后,圈内普遍认为AI的反应确实很快,而且他们对血量的把握远胜人类玩家,可以更好的掌握进退的时机。但这其实是一些low level的动作,AI在这方面做的比人类好毋庸置疑,但是因此赢得先机会让人觉得赖皮。
这样的打法在前期可以和人类抗衡,而且打的还算可以,但是到了中后期的明显弱势,说明了AI的全局观还差很远,在策略这种高层次的动作上,是还有很大的改进空间。
因此,OpenAI后期肯定要改进AI的高层次的策略和大局观。以AlphaGo为例,它的搜索树可以在下棋的时候搜的很深,也就是说可以看到当前局面后面的很多步的各种情况,OpenAI目前在这一点上显然还不够好,这也是由于游戏的复杂度要远远高于围棋。
经过这次比赛,OpenAI下一步应该会注重在DOTA多智能体协作的探究,包括多智能体模型如何构建和如何训练的问题。比如多智能体这个领域的最新进展、博弈论领域的最新进展和其他一些相关领域的最新进展去获取灵感。
OpenAI发博文总结比赛:规则改变限制了Five发挥
赛后,OpenAI发布了一篇文章,讲述了组织这两场比赛的原因,也详细叙述了近日的两次失败,以及接下来的目标。
OpenAI在博文中称,与之前相比,本次比赛失败的最大原因是规则的改变:之前的Benchmark比赛配备了一项重要的限制条件:允许每个英雄一个自身的安全信使(一个向你的英雄传递道具的单位)。而在这两日的比赛中解除了这项限制。
针对这一规则变化,一位不愿透露姓名的相关研究者认为这对AI的表现有很大影响。“首先是训练时间短。短的话,训练的局数不够,AI没见过的局面多,很多情况会不知道怎么办,也就是说并没有收敛。所谓收敛就是说ai的表现会趋于稳定,达到一个最优解或较优解。
可以回顾AlphaGo自己给自己下棋,他是见过了各种局面,才可以应对的比较好。像这种即时战略游戏,动作空间更大,所需要的训练成本也会更高,这是比较显然的”
另一位相关学者给出了一个通俗的解释:“可以拿职业运动员和业余运动员作类比,职业运动员相当于训练了很久的AI(总体来说比赛结果相对稳定),业余运动员相当于训练了很短时间的AI(他可能在某一次比赛中结果不错,但总体上来看比赛结果是不稳定的,时好时坏)。从另一个角度来说,训练时间由短到长对应于:从偶然到必然。“
以下为OpenAI博文全文👇
OpenAI Five 在DOTA 2 全球顶级赛事 TI8(The International DOTA2 Championships)中与人类职业玩家打了两场,输了两场。其实在比赛过程中,人工智能在前期,特别是在前20~35分钟,一直占据着上风。
这次比赛与17天前的Benchmark赛相比,有以下特点:
这次的对手更加强大
英雄阵容由第三方提供
比赛规则的一些限制对AI不利
因为OpenAI Five的五名AI“队员”是从零开始训练的,所以这场专业比赛中,AI的表现仍然令人兴奋。与人类顶级选手对决,如果赢得了比赛当然是非常好,如果比赛输了也会给我们带来非常宝贵的经验,帮助OpenAI Five更上一层楼。
从五月份开始,OpenAI Five 的进步曲线图
规则变化
这次比赛的目的是想看看OpenAI Five 的能力与世界顶级玩家的差距在哪里,与之前的比赛相比,这次的比赛更加正式也更加真实。在比赛之前,我们并不知道将会与谁交手,因为这取决于有谁愿意与我们比赛。
很高兴有如此强大的队伍与我们比赛,相对于之前的Benchmark,我们这两天获得了更多的宝贵经验。
OpenAIFive的第一场比赛是昨天与paiN的对决,虽然这支战队在角逐冠军的时候被淘汰了,但是做为Dota2 18支顶级战队中的一支,仍然有着强大的实力。并且,这支队伍在职业锦标赛中平均赢得了350000美元。
第一场比赛持续了51分钟,这个时间有些略长,因为一局游戏平均下来只有45分钟。在游戏的中期OpenAI Five重新获得了一些优势,但是最终还是输给了人类玩家的策略搭配。
第二场比赛的对手是中国名人堂的选手,他们每一位都身经百战,这场比赛持续了45分钟,和上一局一样,在中前期OpenAI Five占据着上风,但是在一系列激烈团战后,OpenAI Five由优势转为劣势,然后输掉了比赛。
在之前的Benchmark比赛中,我们配备了一项重要的限制条件:允许每个英雄一个自身的安全信使(一个向你的英雄传递道具的单位),而不是一个团队的可被破坏的信使。而我们在这两日的比赛中解除了这项限制。
信使可以不断运送英雄的恢复品,使得OpenAI更容易保持英雄的状态,频繁的参与到对敌方的进攻中。在一场Dota比赛中,状态较差的英雄可能会放弃进攻,选择回家补充状态。很多观众认为,附加的信使会让游戏看起来不像“真正的Dota”。
我们在六天之前展开训练(信使和其他项目一样,是代码中的一项)。当我们认为单一信使会暂时降低Five的表现时,Dota社区则认为单一信使会让比赛更加激动人心。
接下来的目标
我们不认为信使的变化是失败的原因。我们认为,我们还需更多的训练,进行漏洞修复,以及将模型中最后一块照本宣科的部分移除。我们期待着将OpenAI Five推向下一个等级。
这两日的对战重新让我们认识到了Dota人机对战中的差异,也给了我们更多的想象空间。但是OpenAI Five的设计并不只是针对Dota 2这样一个游戏,它更多的技术探讨是如何将AI技术建立在一个安全的沙盒中,而这个沙盒会帮助我们在未来建立先进性的系统。
相关报道:
https://blog.openai.com/the-international-2018-results/
【今日机器学习概念】
Have a Great Definition