【攻陷Dota2】马斯克的OpenAI自学习机器人完虐人类最强玩家

2017 年 8 月 15 日 深度学习世界


新智元报道  

 来源:blog.openai.com;

编辑:熊笑


【新智元导读】OpenAI 的 机器人刚刚在 Dota2 1v1 比赛中战胜了人类顶级职业玩家 Denti。以建设安全的通用人工智能为己任的 OpenAI,通过“Self-Play”的方式,从零开始训练出了这个机器人。



Dota2 沦陷


继横扫顶级的人类国际象棋大师和围棋大师后,计算机如今在风靡全球的电子游戏 Dota 2 中战胜了世界级的职业玩家。此前未被披露的此场对决发生于 Valve 奖金高达2400万美元的 Dota 2 国际邀请赛 “The International”。


 Dendi(图左)在赛前与 OpenAI 的 Greg Brockman(图右)交谈。


在这场一对一的对战中,OpenAI 设计的一款机器人击败了职业玩家 Danylo "Dendi" Ishutin,Dendi 在此前的职业生涯中已赢得累计735449.4美元的奖金。OpenAI 的机器人在首场对战中用时十分钟击败了 Dendi,之后 Dendi 在第二局对战中退出并拒绝再战第三局。


Dendi


“请放过我吧,”赛间 Dendi 对机器人对手这样说道。



Elon Musk 发表推文称赞 OpenAI 的战绩,并其为“在电子竞技领域首个击败人类顶级玩家的机器人”。


OpenAI 在电子竞技领域首度击败人类顶级玩家。这比国际象棋及围棋等游戏要复杂得多。


OpenAI 的 CTO Greg Brockman 在赛前介绍称这一款机器人通过数千次的加以指导的自我对决进行训练,并称该机器人已经击败了数个 Dota 2 的职业玩家。Brockman 在博客中称:“过去几周内,我们的机器人已经战胜过包括 SumaiL(世界顶级 1v1 选手)及 Arteezy(世界顶级 overall 选手)等多个顶级玩家”。


“自我对决”的理念是 OpenAI 研发的关键。这是一种 AI 系统学习解决极其复杂任务的有效方法:与太弱或太强的对手对战,它都无法从中学到东西,但自身反倒是有价值的对手。Brockman 介绍道:“你可以看到 AI 从完全的随机状态一步步发展到如今的顶级水平”。


AI 公司惯常用电子竞技游戏来测试他们的技术,如谷歌的DeepMind 攻克“星际2”,微软的 AI 团队今日则宣称他们在吃豆人游戏中获取高分。


OpenAI 并未打算就此停止征战的脚步。他们希望在明年的参与正式的五对五比赛。与此同时他们也对外发布了此机器人,所以任何人有兴趣均可与之对战。 第一个击败此机器人的玩家则可获得 Valve 专设的赏金。


我们创造了在 Dota2 1v1 比赛中能够击败世界顶尖职业选手的 AI。其完全是用 self-play 的方式训练,没有使用模仿学习(imitation learning)或树搜索。这对构建在混乱、包含人类行为在内的复杂场景下能够完成 well-defined goals 的 AI 系统 是重要一步。


Dota 1v1 是含有隐藏信息的复杂游戏。代理需要学习计划、进攻、花招以及误导对手。选手技巧和手速(每分钟动作)的关联不那么强烈,实际上,我们的 AI “手速”只是一般人类选手的水平。


想要在 Dota 中取胜,要求选手培养出对对手的直觉,并采取相应的策略。在上述视频中,你能看到,我们的机器人已经通过完全的 self-play 学会了预测其他选手的动作,并在不熟悉的场景下即兴发挥,以及如何作用于选手的单位。



完全通过 Self-Play 的方式训练,从零达到世界顶级水平



OpenAI 的目标是建设安全的通用人工智能。对于 AI 来说,Dota是一个非常理想的试验场,竞争激烈,游戏复杂。如果想在这门游戏中获得成就,就必须推进现有技术,实现技术突破。我们现在开发了一个 AI,能够在 Dota 的 1v1 比赛中击败顶尖职业选手。



AI 在 Dota2 中学习并战斗


Dota 的规则非常复杂,如果是用规则方法,那么构建出的 AI 一定是个蹩脚的 player。所以,我们完全采用的是自我游戏(self-play)的训练方法。刚开始训练时,AI 对于自己所处的世界全无认识,而只是和自己的 copy 比赛,这也就意味着它和它的对手永远是旗鼓相当的。它用这个方法一点点地提升,直到达到了世界上最优秀的职业运动员的水平。The International (TI)是 Dota 的世界锦标赛,吸引了世界各地 20000名观众来观看职业运动员争夺2400万奖金。在 TI 上,我们派出 AI 和其中的多位高手进行了比赛,在比赛中,AI 展现出了很强的鲁棒性和技巧,许多职业选手希望能持续和我们的 AI 比赛,并考虑要把它当做是一种训练手段。


现在的这支研究团队


下一步研究将是 5v5 比赛,我们希望做出 5 个相互协作的 AI,击败人类战队。另外,我们也期待尝试把 AI 和人类放在同一战队中,协作取得胜利。



原文地址:https://blog.openai.com/dota-2/

http://www.businessinsider.com/the-international-dota-2-openai-bot-beats-dendi-2017-8


  
    
    

点击下方“阅读原文”下载同声译
↓↓↓
登录查看更多
0

相关内容

OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
Arxiv
3+阅读 · 2019年10月31日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
SepNE: Bringing Separability to Network Embedding
Arxiv
3+阅读 · 2019年2月26日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员