Nature:闭关修炼9个月,AlphaStar达成完全体,三种族齐上宗师,碾压99.8%活跃玩家

2019 年 11 月 2 日 新智元




  新智元报道  

来源:DeepMind、Nature
编辑:大明
【新智元导读】闭关修炼9个月,DeepMind打造的《星际争霸2》游戏AI实现进化!新版的AlphaStar在官方战网真实对战中,使用3个种族均达到最高的“宗师”段位,表现超过了99.8%的人类活跃玩家。面对AI,竞技游戏领域人类玩家的生存空间越来越小了。新智元 AI 朋友圈说说你的观点


今年1月,DeepMind的《星际争霸2》游戏AI “AlphaStar”初级版本的发布曾引发广泛关注。当时AlphaStar使用神族挑战了《星际争霸2》中的两个专业玩家并获得了胜利。
 
时隔9个多月,AlphaStar进化成为完全版,并实现了在战网真实对战中的宗师级水平,分位超过了99.8%的人类玩家。 刊载相关成果的论文已发表在Nature上。
 
论文地址:
https://www.nature.com/articles/s41586-019-1724-z

DeepMind在近日发布了博客中特意将新版AlphaStar与旧版做了对比。具体来说,此次的“完全体AlphaStar”与旧版有4点主要区别:
 
1、  AlphaStar现在和人类在相同的限制条件下游戏,包括通过摄像头观察世界,对其动作操作频率也作出了更严格的限制,不会再发生APM高到离谱的现象。
2、  AlphaStar现在可以使用游戏中三个种族(人族、虫族、神族)的任意一种与人类玩家进行1v1对战,而不是像1月份时那样只会用神族。使用每个种族的智能体都是一个单独的神经网络。
3、  智能体在战网中的训练是完全自动化的,开始只由监督学习训练,而不像原来那样凭借过去的游戏经验进行训练学习。
4、  此次AlphaStar在暴雪官方战网和游戏服务器上进行游戏,使用的是和人类玩家相同的地图和条件。
 
DeepMind表示,新版AlphaStar智能体采用通用机器学习技术,包括神经网络、通过强化学习的自对战、多智能体学习、模仿学习等技术。利用这些技术, 新版AlphaStar的游戏水平超过了战网99.8%的活跃玩家,使用三个种族都拿到了宗师级称号。
 

实际上,通过自对弈实现机器的自我学习并不算是新的概念了。早在1992年,IBM的研究人员在开发TD-Gammon游戏机器人时就采用了这种思路。当时的智能体在玩游戏时没有遵循复杂的启发式游戏规则,而是利用强化学习,通过不断试错找到让自己胜率最大化的游戏方式。而通过自对战,能让整个体系实现更高的稳健性。 强化学习和自对战,这两大法宝合二为一,后来成为构建开放端学习算法的基本范式。
 
在AlphaStar出现之前,使用同类技术的AlphaGo和AlphaZero已经通过对人类顶尖围棋手的全面压制证明了这两大“法宝”的威力。在另一些著名的竞技游戏,如《Dota2》,《雷神之锤3》中,AI智能体均已实现了超越精英玩家的亮眼表现。


不过,自对战模式并非没有缺点,一个最显著的缺点就是“善忘”,智能体可能通过自对弈战胜强大的敌人,但也会因为“忘性太大”而不记得如何战胜更早的自己。这可能会使智能体容易在学习和对战训练时陷入首尾相接的死循环中,永远不会取得真正的进步。
 
对于《星际争霸2》这样复杂的即时策略游戏,即使虚拟的自对战技术也不足以训练出足够强大的智能体。在最近Deepmind发表在《自然》上的论文中,DeepMind将虚构的自对战概念扩展到一组智能体上,称为“League”。


通常,在自对战中,每个智能体都会最大程度地击败对手,赢得胜利。而在现实世界中,《星际争霸》中的玩家可以选择与朋友合作来做到这一点,训练特定的策略。因此,训练的目的除为了在与所有可能对手的对抗中获胜之外,更在于找到友方的缺陷,帮助其成为更好、更强大的玩家。
 
论文中提出的League的主要理念是,光赢得胜利是不够的,需要训练能与所有玩家抗衡的“主要智能体”,也需要专注于训练能够揭示敌方重大缺陷的智能体。这两种智能体都可以提升己方的胜率。通过训练这两种智能体,League以端到端的全自动方式学习了《星际争霸2》中所有复杂的策略。
 

对于智能体而言,寻找制胜战略是又一项挑战。即使拥有强大的自我扮演系统以及由主要和剥削者组成的多样化联盟,如果没有一些先验知识,在如此复杂的环境中,系统几乎就不可能制定出成功的策略。

学习人的策略,并确保智能体在整个游戏过程中不断探索这些策略,这是AlphaStar出色游戏表现的关键。为此,DeepMind团队使用了模仿学习,再加上用于语言建模的高级神经网络体系结构和技术,来制定初始策略,使游戏玩得比84%的活跃玩家更好。
 
DeepMind还使用了一个潜在变量,确定了策略并编码了人类游戏的开局动作分布,这有助于保留高级策略。AlphaStar在整个自对战过程中将策略和动作探索向人类玩家的策略靠拢。这使AlphaStar可以在单个神经网络中表示多个策略。
 
此外,由于《星际争霸2》具有巨大的动作空间,许多先前的强化学习方法均无效。AlphaStar使用一种新的算法进行非政策强化学习,从而使其能够从旧策略玩的游戏中有效地更新策略。
 
如开头所述,最终结果有力证明:通用学习技术可以扩展至AI系统,使其能够在涉及多角色的复杂动态环境中工作。用于开发AlphaStar的技术也有助于进一步提高AI系统的安全性和稳健性,并且很可能推进在现实世界中的其他领域的新研究。

参考链接:
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning
https://venturebeat.com/2019/10/30/deepminds-alphastar-final-beats-99-8-of-human-starcraft-2-players/

论文地址:
https://www.nature.com/articles/s41586-019-1724-z.epdf?author_access_token=lZH3nqPYtWJXfDA10W0CNNRgN0jAjWel9jnR3ZoTv0PSZcPzJFGNAZhOlk4deBCKzKm70KfinloafEF1bCCXL6IIHHgKaDkaTkBcTEv7aT-wqDoG1VeO9-wO3GEoAMF9bAOt7mJ0RWQnRVMbyfgH9A%3D%3D
 
登录查看更多
0

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
《强化学习》简介小册,24页pdf
专知会员服务
274+阅读 · 2020年4月19日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
40+阅读 · 2020年3月9日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
专知会员服务
210+阅读 · 2019年8月30日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
DeepMind发布《星际争霸 II》深度学习环境
人工智能学家
8+阅读 · 2017年9月22日
Arxiv
3+阅读 · 2018年10月5日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员