成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
Nature:闭关修炼9个月,AlphaStar达成完全体,三种族齐上宗师,碾压99.8%活跃玩家
2019 年 11 月 2 日
新智元
新智元报道
来源:DeepMind、Nature
编辑:大明
【新智元导读】
闭关修炼9个月,DeepMind打造的《星际争霸2》游戏AI实现进化!新版的AlphaStar在官方战网真实对战中,使用3个种族均达到最高的“宗师”段位,表现超过了99.8%的人类活跃玩家。面对AI,竞技游戏领域人类玩家的生存空间越来越小了。
来
新智元 AI 朋友圈
说说你的观点
~
今年1月,DeepMind的《星际争霸2》游戏AI “AlphaStar”初级版本的发布曾引发广泛关注。当时AlphaStar使用神族挑战了《星际争霸2》中的两个专业玩家并获得了胜利。
时隔9个多月,AlphaStar进化成为完全版,并实现了在战网真实对战中的宗师级水平,分位超过了99.8%的人类玩家。
刊载相关成果的论文已发表在Nature上。
论文地址:
https://www.nature.com/articles/s41586-019-1724-z
DeepMind在近日发布了博客中特意将新版AlphaStar与旧版做了对比。具体来说,此次的“完全体AlphaStar”与旧版有4点主要区别:
1、 AlphaStar现在和人类在相同的限制条件下游戏,包括通过摄像头观察世界,对其动作操作频率也作出了更严格的限制,不会再发生APM高到离谱的现象。
2、 AlphaStar现在可以使用游戏中三个种族(人族、虫族、神族)的任意一种与人类玩家进行1v1对战,而不是像1月份时那样只会用神族。使用每个种族的智能体都是一个单独的神经网络。
3、 智能体在战网中的训练是完全自动化的,开始只由监督学习训练,而不像原来那样凭借过去的游戏经验进行训练学习。
4、 此次AlphaStar在暴雪官方战网和游戏服务器上进行游戏,使用的是和人类玩家相同的地图和条件。
DeepMind表示,新版AlphaStar智能体采用通用机器学习技术,包括神经网络、通过强化学习的自对战、多智能体学习、模仿学习等技术。利用这些技术,
新版AlphaStar的游戏水平超过了战网99.8%的活跃玩家,使用三个种族都拿到了宗师级称号。
实际上,通过自对弈实现机器的自我学习并不算是新的概念了。早在1992年,IBM的研究人员在开发TD-Gammon游戏机器人时就采用了这种思路。当时的智能体在玩游戏时没有遵循复杂的启发式游戏规则,而是利用强化学习,通过不断试错找到让自己胜率最大化的游戏方式。而通过自对战,能让整个体系实现更高的稳健性。
强化学习和自对战,这两大法宝合二为一,后来成为构建开放端学习算法的基本范式。
在AlphaStar出现之前,使用同类技术的AlphaGo和AlphaZero已经通过对人类顶尖围棋手的全面压制证明了这两大“法宝”的威力。在另一些著名的竞技游戏,如《Dota2》,《雷神之锤3》中,AI智能体均已实现了超越精英玩家的亮眼表现。
不过,自对战模式并非没有缺点,
一个最显著的缺点就是“善忘”
,智能体可能通过自对弈战胜强大的敌人,但也会因为“忘性太大”而不记得如何战胜更早的自己。这可能会使智能体容易在学习和对战训练时陷入首尾相接的死循环中,永远不会取得真正的进步。
对于《星际争霸2》这样复杂的即时策略游戏,即使虚拟的自对战技术也不足以训练出足够强大的智能体。在最近Deepmind发表在《自然》上的论文中,DeepMind
将虚构的自对战概念扩展到一组智能体上,称为“League”。
通常,在自对战中,每个智能体都会最大程度地击败对手,赢得胜利。而在现实世界中,《星际争霸》中的玩家可以选择与朋友合作来做到这一点,训练特定的策略。因此,训练的目的除为了在与所有可能对手的对抗中获胜之外,更在于找到友方的缺陷,帮助其成为更好、更强大的玩家。
论文中提出的League的主要理念是,
光赢得胜利是不够的,需要训练能与所有玩家抗衡的“主要智能体”,也需要专注于训练能够揭示敌方重大缺陷的智能体。
这两种智能体都可以提升己方的胜率。通过训练这两种智能体,League以端到端的全自动方式学习了《星际争霸2》中所有复杂的策略。
对于智能体而言,寻找制胜战略是又一项挑战。即使拥有强大的自我扮演系统以及由主要和剥削者组成的多样化联盟,如果没有一些先验知识,在如此复杂的环境中,系统几乎就不可能制定出成功的策略。
学习人的策略,并确保智能体在整个游戏过程中不断探索这些策略,这是AlphaStar出色游戏表现的关键。为此,DeepMind团队使用了模仿学习,再加上用于语言建模的高级神经网络体系结构和技术,来制定初始策略,使游戏玩得比84%的活跃玩家更好。
DeepMind还使用了一个潜在变量,确定了策略并编码了人类游戏的开局动作分布,这有助于保留高级策略。AlphaStar在整个自对战过程中将策略和动作探索向人类玩家的策略靠拢。这使AlphaStar可以在单个神经网络中表示多个策略。
此外,由于《星际争霸2》具有巨大的动作空间,许多先前的强化学习方法均无效。AlphaStar使用一种新的算法进行非政策强化学习,从而使其能够从旧策略玩的游戏中有效地更新策略。
如开头所述,最终结果有力证明:通用学习技术可以扩展至AI系统,使其能够在涉及多角色的复杂动态环境中工作。用于开发AlphaStar的技术也有助于进一步提高AI系统的安全性和稳健性,并且很可能推进在现实世界中的其他领域的新研究。
参考链接:
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning
https://venturebeat.com/2019/10/30/deepminds-alphastar-final-beats-99-8-of-human-starcraft-2-players/
论文地址:
https://www.nature.com/articles/s41586-019-1724-z.epdf?author_access_token=lZH3nqPYtWJXfDA10W0CNNRgN0jAjWel9jnR3ZoTv0PSZcPzJFGNAZhOlk4deBCKzKm70KfinloafEF1bCCXL6IIHHgKaDkaTkBcTEv7aT-wqDoG1VeO9-wO3GEoAMF9bAOt7mJ0RWQnRVMbyfgH9A%3D%3D
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
智能体
关注
34
智能体,顾名思义,就是具有智能的实体,英文名是Agent。
【牛津大学博士论文】基于强化学习的无地图机器人导航,Reinforcement Learning Based MRN
专知会员服务
119+阅读 · 2020年5月18日
【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning
专知会员服务
129+阅读 · 2020年4月19日
《强化学习》简介小册,24页pdf
专知会员服务
274+阅读 · 2020年4月19日
【Manning2020新书】深度强化学习实战,351页pdf,Deep Reinforcement Learning
专知会员服务
286+阅读 · 2020年3月10日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
40+阅读 · 2020年3月9日
Nature论文:用于自主血管通路的深度学习机器人导航,新泽西州立大学
专知会员服务
24+阅读 · 2020年2月17日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
【电子书推荐】强化学习(Reinforcement Learning)法兰克福大学 | Cornelius Weber
专知会员服务
43+阅读 · 2019年11月19日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知会员服务
78+阅读 · 2019年10月27日
【综述】多智能体深度强化学习综述,附49页PDF
专知会员服务
210+阅读 · 2019年8月30日
Nature子刊:最先进的人工神经网络离人类水平还有多远?
新智元
9+阅读 · 2019年8月23日
AI魔方大师:1.2秒解魔方超世界纪录2倍,平均移动28步
智东西
3+阅读 · 2019年7月17日
【强化学习】碾压人类的超级多智能体如何训练?从认知学到进化论,详述强化学习两大最新突破
产业智能官
14+阅读 · 2019年6月13日
天才也勤奋!DeepMind哈萨比斯自述:领导400名博士向前,每天工作至凌晨4点
量子位
8+阅读 · 2018年12月17日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【重磅】DeepMind发布Nature论文: 博弈网络让智能体成为游戏大咖
专知
8+阅读 · 2018年1月17日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
【深度强化学习】专业解读“深度强化学习“:从AlphaGo到AlphaGoZero
产业智能官
11+阅读 · 2017年11月2日
人类:“共同探索围棋极限!”新AlphaGo:“不了吧,我到了。”
PingWest品玩
4+阅读 · 2017年10月20日
DeepMind发布《星际争霸 II》深度学习环境
人工智能学家
8+阅读 · 2017年9月22日
DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation
Arxiv
5+阅读 · 2019年11月1日
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Arxiv
11+阅读 · 2019年6月2日
Reinforcement Learning with Perturbed Rewards
Arxiv
3+阅读 · 2018年10月5日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Multi-Hop Knowledge Graph Reasoning with Reward Shaping
Arxiv
5+阅读 · 2018年9月11日
Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation
Arxiv
5+阅读 · 2018年7月11日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
16+阅读 · 2018年6月27日
Multiagent Soft Q-Learning
Arxiv
11+阅读 · 2018年4月25日
Deep Reinforcement Learning for List-wise Recommendations
Arxiv
13+阅读 · 2018年1月5日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
智能体
DeepMind
强化学习
AI
游戏服务器
RE
相关VIP内容
【牛津大学博士论文】基于强化学习的无地图机器人导航,Reinforcement Learning Based MRN
专知会员服务
119+阅读 · 2020年5月18日
【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning
专知会员服务
129+阅读 · 2020年4月19日
《强化学习》简介小册,24页pdf
专知会员服务
274+阅读 · 2020年4月19日
【Manning2020新书】深度强化学习实战,351页pdf,Deep Reinforcement Learning
专知会员服务
286+阅读 · 2020年3月10日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
40+阅读 · 2020年3月9日
Nature论文:用于自主血管通路的深度学习机器人导航,新泽西州立大学
专知会员服务
24+阅读 · 2020年2月17日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
【电子书推荐】强化学习(Reinforcement Learning)法兰克福大学 | Cornelius Weber
专知会员服务
43+阅读 · 2019年11月19日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知会员服务
78+阅读 · 2019年10月27日
【综述】多智能体深度强化学习综述,附49页PDF
专知会员服务
210+阅读 · 2019年8月30日
热门VIP内容
开通专知VIP会员 享更多权益服务
《雷达任务调度与策略梯度强化学习:为连续观察和行动空间创建环境和智能体》最新报告
《军事背景下能力与复杂性的相互作用:定义、挑战和影响》
《海军陆战队远征军信息组行动》美军条令
《文化:第六个领域和C6ISRT框架的引入》译文版
相关资讯
Nature子刊:最先进的人工神经网络离人类水平还有多远?
新智元
9+阅读 · 2019年8月23日
AI魔方大师:1.2秒解魔方超世界纪录2倍,平均移动28步
智东西
3+阅读 · 2019年7月17日
【强化学习】碾压人类的超级多智能体如何训练?从认知学到进化论,详述强化学习两大最新突破
产业智能官
14+阅读 · 2019年6月13日
天才也勤奋!DeepMind哈萨比斯自述:领导400名博士向前,每天工作至凌晨4点
量子位
8+阅读 · 2018年12月17日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【重磅】DeepMind发布Nature论文: 博弈网络让智能体成为游戏大咖
专知
8+阅读 · 2018年1月17日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
【深度强化学习】专业解读“深度强化学习“:从AlphaGo到AlphaGoZero
产业智能官
11+阅读 · 2017年11月2日
人类:“共同探索围棋极限!”新AlphaGo:“不了吧,我到了。”
PingWest品玩
4+阅读 · 2017年10月20日
DeepMind发布《星际争霸 II》深度学习环境
人工智能学家
8+阅读 · 2017年9月22日
相关论文
DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation
Arxiv
5+阅读 · 2019年11月1日
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Arxiv
11+阅读 · 2019年6月2日
Reinforcement Learning with Perturbed Rewards
Arxiv
3+阅读 · 2018年10月5日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Multi-Hop Knowledge Graph Reasoning with Reward Shaping
Arxiv
5+阅读 · 2018年9月11日
Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation
Arxiv
5+阅读 · 2018年7月11日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
16+阅读 · 2018年6月27日
Multiagent Soft Q-Learning
Arxiv
11+阅读 · 2018年4月25日
Deep Reinforcement Learning for List-wise Recommendations
Arxiv
13+阅读 · 2018年1月5日
大家都在搜
量化交易
洛克菲勒
大规模语言模型
研究报告
基础模型
自主可控
coa
无人船
象棋
社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top