1990年代,十几岁的Oriol Vinyals(维纽斯)成了西班牙《星际争霸》全国冠军。
他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”
他的战略思维的确获得了回报:在巴塞罗那学习了电信工程和数学之后,维纽斯去过微软研究院实习,获得了加州大学伯克利的计算机博士学位,接着加入谷歌大脑团队,开始从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。
他又跟“星际争霸”打起了交道。
但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后,星际成为了下一个攻克目标。
DeepMind与《星际争霸2》的开发商暴雪展开合作,让人工智能研究人员可以通过之前的数百万场对战进行学习。他们的目标之一,就是开发一套足够好的人工智能系统,使之可以击败人类选手。就像DeepMind的AlphaGo击败李世乭、柯洁一样。
然而,最终的目标是将其中使用的技术应用到现实世界,而不是让它始终停留在游戏里面。
“我们正在试图理解人类以及我们大脑的工作方式。”暴雪首席软件工程师Jacob Repp说,“如果我们能够得到这种高质量的数据流——人类玩游戏时的原始输入以及由此产生的结果——那就能成为研究人们行为的有用数据。”
对人工智能研究人员来说,《星际争霸2》是个颇为有趣的挑战。
与国际象棋或围棋不同,星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动,要一段时间后才能看到结果。
暴雪已经使用神经网络来获取玩家技能,而依据则是他们利用键盘和鼠标输入的信息、他们排兵布阵的方法、他们玩游戏时的效率。这些信号都可以用来让游戏本身更加有趣,或者让对战双方更加均衡。
但要让人工智能玩《星际争霸2》,就必须让他们能“看到”游戏里的3D地图,并快速而准确地加以解读。
DeepMind的首次测试,先在雅达利游戏上训练神经网络和AI智能体(Agent),然后再将其应用到《星际争霸2》上。即便没有进一步的指令,用雅达利游戏训练的人工智能也可以在地图上随意走动、移动镜头、排兵布阵。
“这的确可以在一定程度上发挥作用”,Viyals说。
在加入DeepMind之前,维纽斯开发了一项图片搜索功能和Gmail的“智能回复”,后者可以根据邮件内容推荐相关的回复。该团队还在从事语音识别,让人工智能记住不同人的对话,从而在下次听到这个声音时识别出来。
“在《星际争霸2》里,也要应对这些问题。”维纽斯说。一个玩家可能看到对手的侦察兵,然后又消失在视野中。对人工智能来说,记住他们遇到的东西,并且理解这可能表明敌人正在某个地方修建基地,就需要使用LSTM神经网络。
维纽斯解释道,电脑可以把某个数据的记忆保留数十年的时间,但这种记忆不仅需要保存,还要在未来针对某个信息调取出来。
“在《星际争霸2》中,这非常重要,但却很微妙,可以将未来与过去联系起来。”他说,“很难建立因果关系,因为游戏中会发生很多事情。”
尽管自己也是星际玩家,但维纽斯表示,DeepMind的研究并没有使用之前的技术作为假设。
借助所谓的强化学习技术,神经网络可以直接解读他们获取的原始信号——在这个案例中,就是《星际争霸》过往的对战录像。
今年8月,DeepMind和暴雪联合发布了第一篇AI打星际的论文:《StarCraft II: A New Challenge for Reinforcement Learning》。
这篇论文的第一作者,就是维纽斯。
论文介绍了暴雪和DeepMind合作推出的SC2LE工具包,其中包括:
机器学习API:由暴雪开发,将研究人员和开发人员接入游戏,并自带首次发布的Linux工具包。至此,Windows、Mac与Linux系统均可在云端运行。
匿名游戏回放数据集:包含65000多场游戏记录,在接下来的几周将增加至50万场,帮助实现智能体间的离线比赛。
开源的DeepMindPySC2工具包:方便研究人员使用暴雪的特征层API训练智能体。
一系列简单的增强学习迷你游戏:帮助研究人员在特定任务上测试智能体的性能。
概述开发环境的论文:记录了迷你游戏的初始基线结果、监督学习数据以及智能体间完整的对抗记录。
DeepMind希望通过此举,推动更多研究社区和开放工具的开发。
维纽斯的故事,让量子位想起他的同事:黄士杰、樊麾。
黄士杰和樊麾都是从小就对围棋产生了浓厚的兴趣。2003年,黄士杰从台湾师范大学毕业获得硕士学位,毕业论文:《电脑围棋打劫的策略》。
一年后,黄士杰开始攻读博士学位。2007年,黄士杰成为台湾师范大学围棋社首任社长,并带领同学征战台湾大专杯围棋赛。
黄士杰的棋力是业余六段。
除了在现实世界下围棋,黄士杰还一直在研究围棋程序。2006年,黄士杰独自开发的第一款围棋程序AjaGo,获得围棋大赛第11名;他参与的中国象棋程序Elephant(大象),获得大赛的铜牌。
2010年,黄士杰在Rémi Coulom的指导下,开发出围棋程序Erica,并在围棋比赛中击败日本的Zen,获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。
2012年,黄士杰加入DeepMind。然后开始AlphaGo的研发。
2015年,黄士杰与樊麾相遇。当年10月,樊麾受邀前往伦敦与尚不为人所知的AlphaGo展开对战。结果五战全败,输的樊麾一度怀疑人生。
樊麾是从小学棋的职业选手,曾经入选国少队,但后来自知与国内顶尖高手实力有差距,所以少年时选择远走欧洲,成为欧洲围棋冠军,法国围棋队总教练。
败给AlphaGo后,樊麾也加入了DeepMind,和黄士杰一样,成为围棋AI的“带路党”。后来的故事大家就熟知了,AlphaGo一路过关斩将,站在围棋之巅。
当然星际AI的研究,还在非常早期的阶段。最近在首尔的一场竞赛中,《星际争霸》职业玩家宋炳具用了不到半小时就轻易击败了4个人工智能机器人。但他也承认,它们的防守打法“有时候让人震惊”。
虽然过去20年维纽斯玩《星际争霸》机会并不多,但这位前西班牙冠军却对自己的《星际争霸》技术满怀信心。
“人工智能现在能打败我吗?我觉得还不能”,维纽斯笑道。
— 完 —
加入社群
量子位AI社群11群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态