星际争霸界也出了位“带路党”,当年的冠军正帮谷歌AI击败人类

2017 年 11 月 25 日 量子位 专注报道AI
李杉 若朴 发自 凹非寺
量子位 出品 | 公众号 QbitAI

1990年代,十几岁的Oriol Vinyals(维纽斯)成了西班牙《星际争霸》全国冠军。

他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”

他的战略思维的确获得了回报:在巴塞罗那学习了电信工程和数学之后,维纽斯去过微软研究院实习,获得了加州大学伯克利的计算机博士学位,接着加入谷歌大脑团队,开始从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。

他又跟“星际争霸”打起了交道。

但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后,星际成为了下一个攻克目标。

DeepMind与《星际争霸2》的开发商暴雪展开合作,让人工智能研究人员可以通过之前的数百万场对战进行学习。他们的目标之一,就是开发一套足够好的人工智能系统,使之可以击败人类选手。就像DeepMind的AlphaGo击败李世乭、柯洁一样。

然而,最终的目标是将其中使用的技术应用到现实世界,而不是让它始终停留在游戏里面。

“我们正在试图理解人类以及我们大脑的工作方式。”暴雪首席软件工程师Jacob Repp说,“如果我们能够得到这种高质量的数据流——人类玩游戏时的原始输入以及由此产生的结果——那就能成为研究人们行为的有用数据。”

对人工智能研究人员来说,《星际争霸2》是个颇为有趣的挑战。

与国际象棋或围棋不同,星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动,要一段时间后才能看到结果。

暴雪已经使用神经网络来获取玩家技能,而依据则是他们利用键盘和鼠标输入的信息、他们排兵布阵的方法、他们玩游戏时的效率。这些信号都可以用来让游戏本身更加有趣,或者让对战双方更加均衡。

但要让人工智能玩《星际争霸2》,就必须让他们能“看到”游戏里的3D地图,并快速而准确地加以解读。

DeepMind的首次测试,先在雅达利游戏上训练神经网络和AI智能体(Agent),然后再将其应用到《星际争霸2》上。即便没有进一步的指令,用雅达利游戏训练的人工智能也可以在地图上随意走动、移动镜头、排兵布阵。

“这的确可以在一定程度上发挥作用”,Viyals说。

在加入DeepMind之前,维纽斯开发了一项图片搜索功能和Gmail的“智能回复”,后者可以根据邮件内容推荐相关的回复。该团队还在从事语音识别,让人工智能记住不同人的对话,从而在下次听到这个声音时识别出来。

“在《星际争霸2》里,也要应对这些问题。”维纽斯说。一个玩家可能看到对手的侦察兵,然后又消失在视野中。对人工智能来说,记住他们遇到的东西,并且理解这可能表明敌人正在某个地方修建基地,就需要使用LSTM神经网络。

维纽斯解释道,电脑可以把某个数据的记忆保留数十年的时间,但这种记忆不仅需要保存,还要在未来针对某个信息调取出来。

“在《星际争霸2》中,这非常重要,但却很微妙,可以将未来与过去联系起来。”他说,“很难建立因果关系,因为游戏中会发生很多事情。”

尽管自己也是星际玩家,但维纽斯表示,DeepMind的研究并没有使用之前的技术作为假设。

借助所谓的强化学习技术,神经网络可以直接解读他们获取的原始信号——在这个案例中,就是《星际争霸》过往的对战录像。

SC2LE

今年8月,DeepMind和暴雪联合发布了第一篇AI打星际的论文:《StarCraft II: A New Challenge for Reinforcement Learning》。

这篇论文的第一作者,就是维纽斯。

论文介绍了暴雪和DeepMind合作推出的SC2LE工具包,其中包括:

  • 机器学习API:由暴雪开发,将研究人员和开发人员接入游戏,并自带首次发布的Linux工具包。至此,Windows、Mac与Linux系统均可在云端运行。

  • 匿名游戏回放数据集:包含65000多场游戏记录,在接下来的几周将增加至50万场,帮助实现智能体间的离线比赛。

  • 开源的DeepMindPySC2工具包:方便研究人员使用暴雪的特征层API训练智能体。

  • 一系列简单的增强学习迷你游戏:帮助研究人员在特定任务上测试智能体的性能。


  • 概述开发环境的论文:记录了迷你游戏的初始基线结果、监督学习数据以及智能体间完整的对抗记录。

DeepMind希望通过此举,推动更多研究社区和开放工具的开发。

围棋AI“带路党”

维纽斯的故事,让量子位想起他的同事:黄士杰、樊麾。

黄士杰和樊麾都是从小就对围棋产生了浓厚的兴趣。2003年,黄士杰从台湾师范大学毕业获得硕士学位,毕业论文:《电脑围棋打劫的策略》。

一年后,黄士杰开始攻读博士学位。2007年,黄士杰成为台湾师范大学围棋社首任社长,并带领同学征战台湾大专杯围棋赛。

黄士杰的棋力是业余六段。

除了在现实世界下围棋,黄士杰还一直在研究围棋程序。2006年,黄士杰独自开发的第一款围棋程序AjaGo,获得围棋大赛第11名;他参与的中国象棋程序Elephant(大象),获得大赛的铜牌。

2010年,黄士杰在Rémi Coulom的指导下,开发出围棋程序Erica,并在围棋比赛中击败日本的Zen,获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。

2012年,黄士杰加入DeepMind。然后开始AlphaGo的研发。

2015年,黄士杰与樊麾相遇。当年10月,樊麾受邀前往伦敦与尚不为人所知的AlphaGo展开对战。结果五战全败,输的樊麾一度怀疑人生。

樊麾是从小学棋的职业选手,曾经入选国少队,但后来自知与国内顶尖高手实力有差距,所以少年时选择远走欧洲,成为欧洲围棋冠军,法国围棋队总教练。

败给AlphaGo后,樊麾也加入了DeepMind,和黄士杰一样,成为围棋AI的“带路党”。后来的故事大家就熟知了,AlphaGo一路过关斩将,站在围棋之巅。

当然星际AI的研究,还在非常早期的阶段。最近在首尔的一场竞赛中,《星际争霸》职业玩家宋炳具用了不到半小时就轻易击败了4个人工智能机器人。但他也承认,它们的防守打法“有时候让人震惊”。

虽然过去20年维纽斯玩《星际争霸》机会并不多,但这位前西班牙冠军却对自己的《星际争霸》技术满怀信心。

“人工智能现在能打败我吗?我觉得还不能”,维纽斯笑道。

加入社群

量子位AI社群11群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
1

相关内容

就职于 Google DeepMind,AlphaGo 的主要设计者之一。围棋台湾业余6段。
Yoshua Bengio最新《深度学习》MLSS2020教程,附104页PPT及视频
专知会员服务
129+阅读 · 2020年7月10日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
分析 | 盘点人工神经网络超过人类的6个领域
网易智能菌
5+阅读 · 2017年12月12日
DeepMind发布《星际争霸 II》深度学习环境
人工智能学家
8+阅读 · 2017年9月22日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年12月26日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关论文
Arxiv
5+阅读 · 2019年4月8日
Arxiv
7+阅读 · 2018年12月26日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
3+阅读 · 2017年11月21日
Top
微信扫码咨询专知VIP会员