Deepmind AI在《星际争霸2》血虐99.8%人类,登顶宗师段位

2020 年 4 月 19 日 新智元



  新智元报道  

来源:PC Gamers等

编辑:啸林

【新智元导读】虽然IBM一直在做与人类辩论的AI,Deepmind团队一直执着于创造在游戏中血虐人类玩家的AI。这是为什么?新一代AI何以登顶星际争霸2战网天梯宗师?「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」

RTS游戏中,电脑AI=人工智障?

对于大多数游戏玩家来说, 游戏内置的电脑AI,似乎都是一个笑话 ,更应该被称为“人工智障”。

能够和玩家匹敌的电脑AI往往被分配有超越玩家的资源, 比方说《红警》里面打十家冷酷的敌人,或是在《魔兽争霸》里打令人发狂的电脑 ,电脑AI的优势仅来自于远超玩家的资源和造兵速度,或是对AI取消战争迷雾等种种作弊。

这种时候,人类玩家的常见赢法,要不然是通过自己的精心磨练的游戏水平硬刚,要不然就是利用电脑套路的缺陷“走后门”。不管怎样,这都体现了 AI预编程的策略并不足以应对灵活狡猾的人类玩家  

比如说这张图,电脑终于学会藏基地这种人类基本操作,玩家露出了欣慰的姨母笑。

原先电脑AI策略的最主要问题在于,如果不作弊(不免除战争迷雾),能从心理上猜测对玩家的单位在哪里、猜玩家在走什么流并针对性地应对、对他们的第一波攻击做出有效反应, 这是很难提前编写的东西

不管是游戏AI的无脑缺陷,还是人类玩家的窃笑,这一切在深度学习(DL)被引入到训练中时戛然而止。

为何专注于攻克星际争霸2?因为极为复杂,高度拟真

星际争霸是一款暴雪出品的经典即时战略(RTS)游戏,以其对战略思维的超强考验、精妙的种族平衡性和极强的可玩性著称,玩家也必须在经济的宏观管理和微观个体的控制之间保持谨慎的平衡



从星际争霸1到星际争霸2,这款RTS神作一直被列为世界电子竞技的核心项目之一。 

2014年暴雪嘉年华,人山人海的星际争霸2比赛

在AI已经玩转国际象棋、围棋和《危险边缘》(英語:Jeopardy!,是由梅夫·格里芬在1964年创建的美国的电视智力竞赛节目)之后, 《星际争霸2》将是AI的下一个重大挑战已成为共识。 AI巨头们纷纷摩拳擦掌,对科普卢星区的虫海、坦克群和高阶圣堂武士们跃跃欲试。


他们对星际争霸感兴趣是 因为它足够复杂,可以模拟现实生活

用AI打星际争霸的风云人物、纽芬兰纪念大学计算机科学教授David Churchill曾说,“星际争霸太复杂了。 能适用于星际争霸的机器人,也能解决现实生活中的其他问题。 ” 

星际争霸中 不存在最优策略 AI 需要不断探索 和拓展更新自己的战略知识。

操作空间巨大 ,需要同时操作上百个不同的单位,所以 可能性的组合空间非常大

游戏过程很长,需要长期规划 像许多现实世界中的问题一样,因果关系不是瞬间产生的在游戏早期采取的行动可能在很长一段时间内都不会有回报,所以它 会锻炼AI的长线思考能力

“对人类来说,星际争霸是最难玩的游戏。就像是一个人下象棋的同时还要踢足球。你需要高度集中的注意力、超人般的手指和胳膊、以及超出常人的战略头脑。”

AlphaStar与人类玩家Mana厮杀中

另外, 与棋类游戏不同,《星际争霸》中大量的“棋子”对AI构成了巨大的挑战。  

AlphaGo下围棋,可能的下法一共有10的170次方 ,这个数字比整个宇宙中的原子数10的80次方都多。 这对于星际争霸来说简直是小儿科

星际争霸在每一瞬间都有10的26次方种可能的操作 ——几乎无法计算。尽管如此, AI被限制于以人类的速度操作,这迫使其通过制定战略来取胜 ,而不是通过一系列超人类的无敌操作来轰炸其人类对手。 

AlphaStar的平均APM只有277,职业玩家则可以达到559。

根据DeepMind团队在《Nature》上发表的一篇论文,星际争霸“已成为人工智能研究的一项重要挑战”,这要归功于它“ 天生的复杂性和多代理挑战 ,成就了它在最困难的专业电竞中的持久地位,并且它 与现实世界具有很强的相关性 ”。

那为什么AI在玩星际争霸2这样的复杂游戏?因为 复杂游戏是一个对现实的绝佳模拟。

如果AI能在如此复杂的环境中,学会和人一样实时感知、分析、理解、推理、决策并行动,那么AI就可能在多变、复杂的真实环境中发挥更大的作用。

Deepmind的AlphaStar血虐人类,登顶宗师段位

来自Google的DeepMind团队训练出了最强的星际争霸AI AlphaStar,它在战网星际争霸2的一系列盲注游戏(即人类蠢蛋们不知道和他们对战的是AI)上击败了弱小的人类。

在排位赛中达到了宗师水平 ,并且 在欧洲服务器上的表现超过了99.8%的人类 。 

快来看看Deepmind团队如何讲述新宗师AlphaStar的诞生:


为何Dee pMind团队选择了主攻电脑游戏?这也许不足为奇,因为它的CEO是Demis Hassabis。

Google CEO Sundar Pichai

一些老玩家可能知道他做过的游戏:在为Bullfrog制作的游戏Syndicate(Bullfrog1993年出品的一款即时战略游戏)提供了一些关卡设计之后,当时年仅17岁的 Hassabis成为了1994年游戏《主题公园》的联合设计师和首席程序员 ,这款游戏后来卖出了1000万份。

硬件基础:10亿亿次浮点运算的液冷TPU

AlphaStar在Google专有的张量处理单元 (TPU)上运行 ,它们是专门为神经网络机器学习而开发的专用集成电路(ASIC)。

这种芯片构成了许多服务的后端 ,例如,一个芯片在Google Photos中每天可以处理超过1亿张照片,在Google Street View中可以在不到五天内就提取数据库中的所有文本。

说到“张量”一词,自然会与在Nvidia的RTX GPU中启用DLSS的张量核心进行比较。 与GPU相比,TPU精度较低,缺少用于纹理化和栅格化的硬件,但用于巨量计算时速度惊人

Google将其第三代TPU部署在每个最多1024个芯片的储存舱中。


Google母公司Alphabet的首席执行官Sundar Pichai在公司位于加利福尼亚山景城的年度I / O会议上说:“ 每个舱的运算速度现在都超过了10亿亿次浮点运算。

 “这使我们能够开发更好、更大型、更准确的ML模型,并帮助我们解决更大的问题。 这些芯片是如此强大,我们不得不首次在数据中引入液体冷却中心。

44天相当于玩了200年,拓展全新玩法边界


AlphaStar通过观看暴雪发布的匿名人类游戏来开始训练 。它开始 模仿 这些策略,并且 很快能够在95%的比赛中击败游戏内置电脑的精英级别

在游戏的三个种族中,AlphaStar 偏爱神族Protoss ,尽管研究人员认为最终虫族Zerg和人族Terran也会并驾齐驱。

然后使用“Alpha League”循环比赛方法,先对比从人类数据中训练出来的神经网络,然后逐次迭代,不同的AI实例开始相互对战,成功实例的分支被采用,并作为新player重新引入league,使其不断发展壮大。

最后在Alpha League中 选择最不容易被利用的Agent ,称之为“The nash of League”, 去挑战人类

血洗顶尖职业选手

训练AlphaStar 只花了44天 ,DeepMind估计 这相当于 每个AI代理都 玩了200年星际争霸2 。然后它就击败了99.8%的人类。

2018年12月10日,AlphaStar 5:0 战绩打败了Team Liquid的职业星际2选手TLO,然后经过更多训练后,在12月19日再次以 5:0 的完胜战绩血洗了职业选手MaNa,只是在随后的一场表现赛中输给了MaNa。

A lphaStar vs Mana,血洗

AlphaStar vs Serral,当时的星际争霸2最强”主宰“,这盘虽然输了,后来又以3:1击败了他

TLO在DeepMind的博客中回忆说:“我对AI如此强大感到惊讶。”

他还表示, “ AI也展示了我以前从未想到的策略,这意味着可能还有我们尚未充分探索的新玩法。 这听起来与独孤求败的围棋宗师Alpha Zero一样, 对游戏的理解已经超越了人类


下一次拿起星际争霸2全球冠军奖杯的,真的可能不是人类玩家,而是AlphaStar了。

参考链接:
 

AI研究人员如何应对《星际争霸2》中的所有新手

https://www.pcgamer.com/how-a-team-of-ai-researchers-took-on-all-comers-at-starcraft-2/

1:10!《星际争霸2》沦陷 人类被AI血洗
https://news.mydrivers.com/1/612/612721.htm

更多关于AI玩星际争霸2的硬核技术介绍,请移步:

新智元:DeepMind最强星际争霸AI—— AlphaStar的复现
https://zhuanlan.zhihu.com/p/56539931

新智元:AlphaStar 称霸星际争霸2!AI史诗级胜利,DeepMind再度碾压人类

https://mp.weixin.qq.com/s/_Y0bCjTu9UrHfnen15htqQ

超人类水准!多图详解星际争霸2 AI AlphaStar
https://news.mydrivers.com/1/612/612739.htm

登录查看更多
0

相关内容

多智能体深度强化学习的若干关键科学问题
专知会员服务
186+阅读 · 2020年5月24日
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
50+阅读 · 2020年5月16日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
DeepMind发布《星际争霸 II》深度学习环境
人工智能学家
8+阅读 · 2017年9月22日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
相关VIP内容
相关论文
Top
微信扫码咨询专知VIP会员