成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
Deepmind AI在《星际争霸2》血虐99.8%人类,登顶宗师段位
2020 年 4 月 19 日
新智元
新智元报道
来源:PC Gamers等
编辑:啸林
【新智元导读】
虽然IBM一直在做与人类辩论的AI,Deepmind团队一直执着于创造在游戏中血虐人类玩家的AI。这是为什么?新一代AI何以登顶星际争霸2战网天梯宗师?「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」
RTS游戏中,电脑AI=人工智障?
对于大多数游戏玩家来说,
游戏内置的电脑AI,似乎都是一个笑话
,更应该被称为“人工智障”。
能够和玩家匹敌的电脑AI往往被分配有超越玩家的资源,
比方说《红警》里面打十家冷酷的敌人,或是在《魔兽争霸》里打令人发狂的电脑
,电脑AI的优势仅来自于远超玩家的资源和造兵速度,或是对AI取消战争迷雾等种种作弊。
这种时候,人类玩家的常见赢法,要不然是通过自己的
精心磨练的游戏水平硬刚,要不然就是利用电脑套路的缺陷“走后门”。不管怎样,这都体现了
AI预编程的策略并不足以应对灵活狡猾的人类玩家
。
比如说这张图,电脑终于学会藏基地这种人类基本操作,玩家露出了欣慰的姨母笑。
原先电脑AI策略的最主要问题在于,如果不作弊(不免除战争迷雾),能从心理上猜测对玩家的单位在哪里、猜玩家在走什么流并针对性地应对、对他们的第一波攻击做出有效反应,
这是很难提前编写的东西
。
不管是游戏AI的无脑缺陷,还是人类玩家的窃笑,这一切在深度学习(DL)被引入到训练中时戛然而止。
为何专注于攻克星际争霸2?因为极为复杂,高度拟真
星际争霸是一款暴雪出品的经典即时战略(RTS)游戏,以其对战略思维的超强考验、精妙的种族平衡性和极强的可玩性著称,玩家也
必须在经济的宏观管理和微观个体的控制之间保持谨慎
的平衡
。
从星际争霸1到星际争霸2,这款RTS神作一直被列为世界电子竞技的核心项目之一。
2014年暴雪嘉年华,人山人海的星际争霸2比赛
在AI已经玩转国际象棋、围棋和《危险边缘》(英語:Jeopardy!,是由梅夫·格里芬在1964年创建的美国的电视智力竞赛节目)之后,
《星际争霸2》将是AI的下一个重大挑战已成为共识。
AI巨头们纷纷摩拳擦掌,对科普卢星区的虫海、坦克群和高阶圣堂武士们跃跃欲试。
他们对星际争霸感兴趣是
因为它足够复杂,可以模拟现实生活
。
用AI打星际争霸的风云人物、纽芬兰纪念大学计算机科学教授
David Churchill曾说,
“星际争霸太复杂了。
能适用于星际争霸的机器人,也能解决现实生活中的其他问题。
”
星际争霸中
不存在最优策略
,
AI
需要不断探索
和拓展更新自己的战略知识。
操作空间巨大
,需要同时操作上百个不同的单位,所以
可能性的组合空间非常大
。
游戏过程很长,需要长期规划
。
像许多现实世界中的问题一样,因果关系不是瞬间产生的
。
在游戏早期采取的行动可能在很长一段时间内都不会有回报,所以它
会锻炼AI的长线思考能力
。
“对人类来说,星际争霸是最难玩的游戏。就像是一个人下象棋的同时还要踢足球。你需要高度集中的注意力、超人般的手指和胳膊、以及超出常人的战略头脑。”
AlphaStar与人类玩家Mana厮杀中
另外,
与棋类游戏不同,《星际争霸》中大量的“棋子”对AI构成了巨大的挑战。
AlphaGo下围棋,可能的下法一共有10的170次方
,这个数字比整个宇宙中的原子数10的80次方都多。
而
这对于星际争霸来说简直是小儿科
。
星际争霸在每一瞬间都有10的26次方种可能的操作
——几乎无法计算。尽管如此,
AI被限制于以人类的速度操作,这迫使其通过制定战略来取胜
,而不是通过一系列超人类的无敌操作来轰炸其人类对手。
AlphaStar的平均APM只有277,职业玩家则可以达到559。
根据DeepMind团队在《Nature》上发表的一篇论文,星际争霸“已成为人工智能研究的一项重要挑战”,这要归功于它“
天生的复杂性和多代理挑战
,成就了它在最困难的专业电竞中的持久地位,并且它
与现实世界具有很强的相关性
”。
那为什么AI在玩星际争霸2这样的
复杂游戏?因为
复杂游戏是一个对现实的绝佳模拟。
如果AI能在如此复杂的环境中,学会和人一样实时感知、分析、理解、推理、决策并行动,那么AI就可能在多变、复杂的真实环境中发挥更大的作用。
Deep
mind的AlphaStar血虐人类,登顶宗师段位
来自Google的DeepMind团队训练出了最强的星际争霸AI AlphaStar,它在战网星际争霸2的一系列盲注游戏(即人类蠢蛋们不知道和他们对战的是AI)上击败了弱小的人类。
它
在排位赛中达到了宗师水平
,并且
在欧洲服务器上的表现超过了99.8%的人类
。
快来看看Deepmind团队如何讲述新宗师
AlphaStar的诞生:
为何Dee
pMind团队选择了主攻电脑游戏?这也许不足为奇,因为它的CEO是Demis Hassabis。
Google CEO Sundar Pichai
一些老玩家可能知道他做过的游戏:在为Bullfrog制作的游戏Syndicate(Bullfrog1993年出品的一款即时战略游戏)提供了一些关卡设计之后,当时年仅17岁的
Hassabis成为了1994年游戏《主题公园》的联合设计师和首席程序员
,这款游戏后来卖出了1000万份。
硬件基础:10亿亿次浮点运算的液冷TPU
AlphaStar在Google专有的张量处理单元
(TPU)上运行
,它们是专门为神经网络机器学习而开发的专用集成电路(ASIC)。
这种芯片构成了许多服务的后端
,例如,一个芯片在Google Photos中每天可以处理超过1亿张照片,在Google Street View中可以在不到五天内就提取数据库中的所有文本。
说到“张量”一词,自然会与在Nvidia的RTX GPU中启用DLSS的张量核心进行比较。
与GPU相比,TPU精度较低,缺少用于纹理化和栅格化的硬件,但用于巨量计算时速度惊人
。
Google将其第三代TPU部署在每个最多1024个芯片的储存舱中。
Google母公司Alphabet的首席执行官Sundar Pichai在公司位于加利福尼亚山景城的年度I / O会议上说:“
每个舱的运算速度现在都超过了
10亿亿次浮点运算。
”
“这使我们能够开发更好、更大型、更准确的ML模型,并帮助我们解决更大的问题。
这些芯片是如此强大,我们不得不首次在数据中引入液体冷却中心。
”
44天相当于玩了200年,拓展全新玩法边界
AlphaStar通过观看暴雪发布的匿名人类游戏来开始训练
。它开始
模仿
这些策略,并且
很快能够在95%的比赛中击败游戏内置电脑的精英级别
。
在游戏的三个种族中,
AlphaStar
偏爱神族Protoss
,尽管研究人员认为最终虫族Zerg和人族Terran也会并驾齐驱。
然后使用“Alpha League”循环比赛方法,先对比从人类数据中训练出来的神经网络,然后逐次迭代,
不同的AI实例开始相互对战,
成功实例的分支被采用,并作为新player重新引入league
,使其不断发展壮大。
最后在Alpha League中
选择最不容易被利用的Agent
,称之为“The nash of League”,
去挑战人类
。
血洗顶尖职业选手
训练AlphaStar
只花了44天
,DeepMind估计
这相当于
每个AI代理都
玩了200年星际争霸2
。然后它就击败了99.8%的人类。
2018年12月10日,
AlphaStar
以
5:0
战绩打败了Team Liquid的职业星际2选手TLO,然后经过更多训练后,在12月19日再次以
5:0
的完胜战绩血洗了职业选手MaNa,只是在随后的一场表现赛中输给了MaNa。
A
lphaStar
vs Mana,血洗
A
lphaStar
vs Serral,当时的星际争霸2最强”主宰“,这盘虽然输了,后来又以3:1击败了他
TLO在DeepMind的博客中回忆说:“我对AI如此强大感到惊讶。”
他还表示, “
AI也展示了我以前从未想到的策略,这意味着可能还有我们尚未充分探索的新玩法。
”
这听起来与独孤求败的围棋宗师Alpha Zero一样,
对游戏的理解已经超越了人类
。
下一次拿起星际争霸2全球冠军奖杯的,真的可能不是人类玩家,而是
AlphaStar
了。
参考链接:
AI研究人员如何应对《星际争霸2》中的所有新手
https://www.pcgamer.com/how-a-team-of-ai-researchers-took-on-all-comers-at-starcraft-2/
1:10!《星际争霸2》沦陷 人类被AI血洗
https://news.mydrivers.com/1/612/612721.htm
更多关于AI玩星际争霸2的硬核技术介绍,请移步:
新智元:DeepMind最强星际争霸AI—— AlphaStar的复现
https://zhuanlan.zhihu.com/p/56539931
新智元:AlphaStar 称霸星际争霸2!AI史诗级胜利,DeepMind再度碾压人类
https://mp.weixin.qq.com/s/_Y0bCjTu9UrHfnen15htqQ
超人类水准!多图详解星际争霸2 AI AlphaStar
https://news.mydrivers.com/1/612/612739.htm
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
战争迷雾
关注
3
【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解
专知会员服务
80+阅读 · 2020年7月2日
多智能体深度强化学习的若干关键科学问题
专知会员服务
190+阅读 · 2020年5月24日
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
51+阅读 · 2020年5月16日
物理学突破深度学习理论瓶颈? Google-斯坦福发布《深度学习统计力学》综述论文,30页pdf阐述深度学习成功机制
专知会员服务
107+阅读 · 2020年3月26日
DeepMind科学家Trask《Grokking Deep Learning》图书及代码, 带你无障碍深度学习,高中数学OK
专知会员服务
93+阅读 · 2020年2月29日
从信息社会迈向智能社会—北京大学高文院士、黄铁军教授
专知会员服务
45+阅读 · 2020年2月20日
深度强化学习策略梯度教程,53页ppt
专知会员服务
180+阅读 · 2020年2月1日
Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人
专知会员服务
54+阅读 · 2020年1月29日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
181+阅读 · 2019年12月14日
AI “赌神”完胜人类扑克冠军,以一敌五实现多人博弈里程碑
科研圈
3+阅读 · 2019年7月12日
天才也勤奋!DeepMind哈萨比斯自述:领导400名博士向前,每天工作至凌晨4点
量子位
8+阅读 · 2018年12月17日
Atari联合创始人去世,为什么游戏对AI很重要?
新智元
3+阅读 · 2018年6月4日
也许你的AI能打败韩国人,LOL数据集DeepLeague正式开源
论智
5+阅读 · 2018年1月25日
【重磅】DeepMind发布Nature论文: 博弈网络让智能体成为游戏大咖
专知
8+阅读 · 2018年1月17日
虽然AlphaGo不和围棋较劲了,但Google扛起了中国围棋教育的大旗
PingWest品玩
3+阅读 · 2017年12月5日
古代荀子也懂AI?达芬奇的手术机器人有多神奇? 听浙大吴飞扒一扒人工智能的“古今中外”!
AI100
3+阅读 · 2017年11月26日
AlphaGo “人肉臂”黄士杰首度公开演讲:Zero 版本并未到达极限,加入 DeepMind 这四件事对我影响最大
EGONetworks
6+阅读 · 2017年11月18日
教程 | 深度强化学习入门:用TensorFlow构建你的第一个游戏AI
机器之心
6+阅读 · 2017年11月16日
DeepMind发布《星际争霸 II》深度学习环境
人工智能学家
8+阅读 · 2017年9月22日
Boundary-weighted Domain Adaptive Neural Network for Prostate MR Image Segmentation
Arxiv
9+阅读 · 2019年2月21日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
DSKG: A Deep Sequential Model for Knowledge Graph Completion
Arxiv
4+阅读 · 2018年10月30日
Bipedal Walking Robot using Deep Deterministic Policy Gradient
Arxiv
3+阅读 · 2018年7月16日
Do deep reinforcement learning agents model intentions?
Arxiv
5+阅读 · 2018年5月21日
Hierarchical Reinforcement Learning with Deep Nested Agents
Arxiv
3+阅读 · 2018年5月18日
A Read-Write Memory Network for Movie Story Understanding
Arxiv
5+阅读 · 2018年3月16日
Monocular Imaging-based Autonomous Tracking for Low-cost Quad-rotor Design - TraQuad
Arxiv
6+阅读 · 2018年1月21日
Long-Term Visual Object Tracking Benchmark
Arxiv
7+阅读 · 2017年12月28日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
战争迷雾
DeepMind
RTS
AI
TPU
最优策略
相关VIP内容
【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解
专知会员服务
80+阅读 · 2020年7月2日
多智能体深度强化学习的若干关键科学问题
专知会员服务
190+阅读 · 2020年5月24日
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
51+阅读 · 2020年5月16日
物理学突破深度学习理论瓶颈? Google-斯坦福发布《深度学习统计力学》综述论文,30页pdf阐述深度学习成功机制
专知会员服务
107+阅读 · 2020年3月26日
DeepMind科学家Trask《Grokking Deep Learning》图书及代码, 带你无障碍深度学习,高中数学OK
专知会员服务
93+阅读 · 2020年2月29日
从信息社会迈向智能社会—北京大学高文院士、黄铁军教授
专知会员服务
45+阅读 · 2020年2月20日
深度强化学习策略梯度教程,53页ppt
专知会员服务
180+阅读 · 2020年2月1日
Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人
专知会员服务
54+阅读 · 2020年1月29日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
181+阅读 · 2019年12月14日
热门VIP内容
开通专知VIP会员 享更多权益服务
《人工智能辅助决策面临的三大挑战》最新33页
《向预测性维护系统过渡》
为什么需要 “大脑启发式人工智能 ”来实现真正的无人自主?
《陆军2023 - 2025 年数字化和数据计划:帮助实现陆军数字化转型的指南》20页
相关资讯
AI “赌神”完胜人类扑克冠军,以一敌五实现多人博弈里程碑
科研圈
3+阅读 · 2019年7月12日
天才也勤奋!DeepMind哈萨比斯自述:领导400名博士向前,每天工作至凌晨4点
量子位
8+阅读 · 2018年12月17日
Atari联合创始人去世,为什么游戏对AI很重要?
新智元
3+阅读 · 2018年6月4日
也许你的AI能打败韩国人,LOL数据集DeepLeague正式开源
论智
5+阅读 · 2018年1月25日
【重磅】DeepMind发布Nature论文: 博弈网络让智能体成为游戏大咖
专知
8+阅读 · 2018年1月17日
虽然AlphaGo不和围棋较劲了,但Google扛起了中国围棋教育的大旗
PingWest品玩
3+阅读 · 2017年12月5日
古代荀子也懂AI?达芬奇的手术机器人有多神奇? 听浙大吴飞扒一扒人工智能的“古今中外”!
AI100
3+阅读 · 2017年11月26日
AlphaGo “人肉臂”黄士杰首度公开演讲:Zero 版本并未到达极限,加入 DeepMind 这四件事对我影响最大
EGONetworks
6+阅读 · 2017年11月18日
教程 | 深度强化学习入门:用TensorFlow构建你的第一个游戏AI
机器之心
6+阅读 · 2017年11月16日
DeepMind发布《星际争霸 II》深度学习环境
人工智能学家
8+阅读 · 2017年9月22日
相关论文
Boundary-weighted Domain Adaptive Neural Network for Prostate MR Image Segmentation
Arxiv
9+阅读 · 2019年2月21日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
DSKG: A Deep Sequential Model for Knowledge Graph Completion
Arxiv
4+阅读 · 2018年10月30日
Bipedal Walking Robot using Deep Deterministic Policy Gradient
Arxiv
3+阅读 · 2018年7月16日
Do deep reinforcement learning agents model intentions?
Arxiv
5+阅读 · 2018年5月21日
Hierarchical Reinforcement Learning with Deep Nested Agents
Arxiv
3+阅读 · 2018年5月18日
A Read-Write Memory Network for Movie Story Understanding
Arxiv
5+阅读 · 2018年3月16日
Monocular Imaging-based Autonomous Tracking for Low-cost Quad-rotor Design - TraQuad
Arxiv
6+阅读 · 2018年1月21日
Long-Term Visual Object Tracking Benchmark
Arxiv
7+阅读 · 2017年12月28日
大家都在搜
洛克菲勒
palantir
大规模语言模型
生成式人工智能
斯坦福博士论文
自主可控
科研工具
日本
时序知识图谱
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top