再而衰!对战中国大神再次战败,OpenAI Five发文告别TI8

2018 年 8 月 24 日 大数据文摘

大数据文摘编辑组出品


刚刚,OpenAI Five 在DOTA 2 全球顶级赛事 TI8(The International DOTA2 Championships)中完成了与人类玩家的第二场“表演公开赛”,没有意外,45分钟的激战后,OpenAI Five再次打出GG(GOOD GAME,意味认输)。


不过,本场比赛给了中国玩家一个惊喜,本次OpenAI Five对战的是来自中国的五位前职业选手——中国DOTA2圈元老级人物:Burning(徐志雷)、Ferrari.430(骆非池)、xiao8(张宁)、sansheng(王兆辉)、rOtk(白帆)。


OpenAI CTO,同时也是OpenAI Five的工程领队Greg Brockman在赛前表示,遵守三局两胜的战局。也就是说,OpenAI Five与人类团战的本轮对决以失败告终,本次的TI8之旅也画上了句号。


赛后,Greg Brockman依然发推祝贺中国五位选手获胜,OpenAI官方也发布博文,总结了两场比赛👇



比赛速览


比赛规则与昨日与第一场比赛的规则一样,都是选择范围都限定在18个英雄中,并且两队所使用的人物都是机选,这样就充分照顾到了英雄阵容的胜率问题。游戏中的限制也和昨天的一样,没有圣剑,没有分身和幻象,中单英雄不允许出魔瓶;没有扫描;依然是一只信使。



比赛采用了和昨天一样的阵容,不过AI和人类进行了互换。(通过猜硬币决定选择哪队英雄)

  • 人类阵容:矮人直升机、巫妖、死亡先知、寒冰室女、潮汐猎人

  • OpenAI的阵容:恶魔巫师、瘟疫法师、巫医、狙击手、斧王


OpenAI Five开局很强势,对人类玩家一直压制,除了开场人类玩家拿下一血,比赛进行到了32分钟才将人头数拉平。其实,在对线和出装上面人工智能有着非常大的缺陷,这一点在第一场比赛就已经看出来了。整个比赛过程,人类队打的还是比较轻松,毕竟是专业玩家,打出了专业水准。


OpenAI Five 在比赛过程中,上场比赛的AI操作带来的疑惑也带到了这一场,例如不知何故在自家高地插眼,比赛后期在自家门口插了一排眼。


从开场到结束,人类虽然在中前期人头数落后,但是在经济上的优势却贯穿全场,这也是人类能最后获胜的一个重要原因,例如最初的经济差距只有两千左右,中期后期的经济差距达到了一万左右,并且还有一些经验优势。在如此大经济差距下,OpenAI Five 也放弃了挣扎,给自己得出了只有1%的胜率。


到最后45分钟的时候,不出所料,人类打爆遗迹,获得胜利。


赛后,圈内普遍认为AI的反应确实很快,而且他们对血量的把握远胜人类玩家,可以更好的掌握进退的时机。但这其实是一些low level的动作,AI在这方面做的比人类好毋庸置疑,但是因此赢得先机会让人觉得赖皮。


这样的打法在前期可以和人类抗衡,而且打的还算可以,但是到了中后期的明显弱势,说明了AI的全局观还差很远,在策略这种高层次的动作上,是还有很大的改进空间。


因此,OpenAI后期肯定要改进AI的高层次的策略和大局观。以AlphaGo为例,它的搜索树可以在下棋的时候搜的很深,也就是说可以看到当前局面后面的很多步的各种情况,OpenAI目前在这一点上显然还不够好,这也是由于游戏的复杂度要远远高于围棋。


经过这次比赛,OpenAI下一步应该会注重在DOTA多智能体协作的探究,包括多智能体模型如何构建和如何训练的问题。比如多智能体这个领域的最新进展、博弈论领域的最新进展和其他一些相关领域的最新进展去获取灵感。


OpenAI发博文总结比赛:规则改变限制了Five发挥


赛后,OpenAI发布了一篇文章,讲述了组织这两场比赛的原因,也详细叙述了近日的两次失败,以及接下来的目标。



OpenAI在博文中称,与之前相比,本次比赛失败的最大原因是规则的改变:之前的Benchmark比赛配备了一项重要的限制条件:允许每个英雄一个自身的安全信使(一个向你的英雄传递道具的单位)。而在这两日的比赛中解除了这项限制。


针对这一规则变化,一位不愿透露姓名的相关研究者认为这对AI的表现有很大影响。“首先是训练时间短。短的话,训练的局数不够,AI没见过的局面多,很多情况会不知道怎么办,也就是说并没有收敛。所谓收敛就是说ai的表现会趋于稳定,达到一个最优解或较优解。


可以回顾AlphaGo自己给自己下棋,他是见过了各种局面,才可以应对的比较好。像这种即时战略游戏,动作空间更大,所需要的训练成本也会更高,这是比较显然的”


另一位相关学者给出了一个通俗的解释:“可以拿职业运动员和业余运动员作类比,职业运动员相当于训练了很久的AI(总体来说比赛结果相对稳定),业余运动员相当于训练了很短时间的AI(他可能在某一次比赛中结果不错,但总体上来看比赛结果是不稳定的,时好时坏)。从另一个角度来说,训练时间由短到长对应于:从偶然到必然。“


以下为OpenAI博文全文👇


OpenAI Five 在DOTA 2 全球顶级赛事 TI8(The International DOTA2 Championships)中与人类职业玩家打了两场,输了两场。其实在比赛过程中,人工智能在前期,特别是在前20~35分钟,一直占据着上风。


这次比赛与17天前的Benchmark赛相比,有以下特点:

  • 这次的对手更加强大

  • 英雄阵容由第三方提供

  • 比赛规则的一些限制对AI不利


因为OpenAI Five的五名AI“队员”是从零开始训练的,所以这场专业比赛中,AI的表现仍然令人兴奋。与人类顶级选手对决,如果赢得了比赛当然是非常好,如果比赛输了也会给我们带来非常宝贵的经验,帮助OpenAI Five更上一层楼。


从五月份开始,OpenAI Five 的进步曲线图


规则变化


这次比赛的目的是想看看OpenAI Five 的能力与世界顶级玩家的差距在哪里,与之前的比赛相比,这次的比赛更加正式也更加真实。在比赛之前,我们并不知道将会与谁交手,因为这取决于有谁愿意与我们比赛。


很高兴有如此强大的队伍与我们比赛,相对于之前的Benchmark,我们这两天获得了更多的宝贵经验。


OpenAIFive的第一场比赛是昨天与paiN的对决,虽然这支战队在角逐冠军的时候被淘汰了,但是做为Dota2 18支顶级战队中的一支,仍然有着强大的实力。并且,这支队伍在职业锦标赛中平均赢得了350000美元。


第一场比赛持续了51分钟,这个时间有些略长,因为一局游戏平均下来只有45分钟。在游戏的中期OpenAI Five重新获得了一些优势,但是最终还是输给了人类玩家的策略搭配。


第二场比赛的对手是中国名人堂的选手,他们每一位都身经百战,这场比赛持续了45分钟,和上一局一样,在中前期OpenAI Five占据着上风,但是在一系列激烈团战后,OpenAI Five由优势转为劣势,然后输掉了比赛。



在之前的Benchmark比赛中,我们配备了一项重要的限制条件:允许每个英雄一个自身的安全信使(一个向你的英雄传递道具的单位),而不是一个团队的可被破坏的信使。而我们在这两日的比赛中解除了这项限制。


信使可以不断运送英雄的恢复品,使得OpenAI更容易保持英雄的状态,频繁的参与到对敌方的进攻中。在一场Dota比赛中,状态较差的英雄可能会放弃进攻,选择回家补充状态。很多观众认为,附加的信使会让游戏看起来不像“真正的Dota”。


我们在六天之前展开训练(信使和其他项目一样,是代码中的一项)。当我们认为单一信使会暂时降低Five的表现时,Dota社区则认为单一信使会让比赛更加激动人心。


接下来的目标


我们不认为信使的变化是失败的原因。我们认为,我们还需更多的训练,进行漏洞修复,以及将模型中最后一块照本宣科的部分移除。我们期待着将OpenAI Five推向下一个等级。


这两日的对战重新让我们认识到了Dota人机对战中的差异,也给了我们更多的想象空间。但是OpenAI Five的设计并不只是针对Dota 2这样一个游戏,它更多的技术探讨是如何将AI技术建立在一个安全的沙盒中,而这个沙盒会帮助我们在未来建立先进性的系统。


相关报道:

https://blog.openai.com/the-international-2018-results/


【今日机器学习概念】

Have a Great Definition

登录查看更多
0

相关内容

OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。
Yoshua Bengio最新《深度学习》MLSS2020教程,附104页PPT及视频
专知会员服务
130+阅读 · 2020年7月10日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
202+阅读 · 2020年5月22日
MATLAB玩转深度学习?新书「MATLAB Deep Learning」162页pdf
专知会员服务
99+阅读 · 2020年1月13日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
【强化学习】深度强化学习初学者指南
专知会员服务
180+阅读 · 2019年12月14日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
吃鸡手游竟然是Python写的?
机器学习算法与Python学习
7+阅读 · 2018年9月11日
李飞飞要从 Google 离开 ?官方已经给出回应
雷锋网
3+阅读 · 2018年6月28日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
8+阅读 · 2018年7月12日
VIP会员
相关VIP内容
Yoshua Bengio最新《深度学习》MLSS2020教程,附104页PPT及视频
专知会员服务
130+阅读 · 2020年7月10日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
202+阅读 · 2020年5月22日
MATLAB玩转深度学习?新书「MATLAB Deep Learning」162页pdf
专知会员服务
99+阅读 · 2020年1月13日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
【强化学习】深度强化学习初学者指南
专知会员服务
180+阅读 · 2019年12月14日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
Top
微信扫码咨询专知VIP会员