会员服务 ·

星际争霸界也出了位“带路党”，当年的冠军正帮谷歌AI击败人类

2017 年 11 月 25 日 量子位 专注报道AI

李杉若朴发自凹非寺
量子位出品 | 公众号 QbitAI

1990年代，十几岁的Oriol Vinyals（维纽斯）成了西班牙《星际争霸》全国冠军。

他之所以玩这款科幻策略游戏，是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说：“没上大学之前，这款游戏就让我在生活中怀有更强的战略思维。”

他的战略思维的确获得了回报：在巴塞罗那学习了电信工程和数学之后，维纽斯去过微软研究院实习，获得了加州大学伯克利的计算机博士学位，接着加入谷歌大脑团队，开始从事人工智能开发工作，然后又转入谷歌旗下DeepMind团队。

他又跟“星际争霸”打起了交道。

但这一次不是他亲自玩，而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后，星际成为了下一个攻克目标。

DeepMind与《星际争霸2》的开发商暴雪展开合作，让人工智能研究人员可以通过之前的数百万场对战进行学习。他们的目标之一，就是开发一套足够好的人工智能系统，使之可以击败人类选手。就像DeepMind的AlphaGo击败李世乭、柯洁一样。

然而，最终的目标是将其中使用的技术应用到现实世界，而不是让它始终停留在游戏里面。

“我们正在试图理解人类以及我们大脑的工作方式。”暴雪首席软件工程师Jacob Repp说，“如果我们能够得到这种高质量的数据流——人类玩游戏时的原始输入以及由此产生的结果——那就能成为研究人们行为的有用数据。”

对人工智能研究人员来说，《星际争霸2》是个颇为有趣的挑战。

与国际象棋或围棋不同，星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动，要一段时间后才能看到结果。

暴雪已经使用神经网络来获取玩家技能，而依据则是他们利用键盘和鼠标输入的信息、他们排兵布阵的方法、他们玩游戏时的效率。这些信号都可以用来让游戏本身更加有趣，或者让对战双方更加均衡。

但要让人工智能玩《星际争霸2》，就必须让他们能“看到”游戏里的3D地图，并快速而准确地加以解读。

DeepMind的首次测试，先在雅达利游戏上训练神经网络和AI智能体（Agent），然后再将其应用到《星际争霸2》上。即便没有进一步的指令，用雅达利游戏训练的人工智能也可以在地图上随意走动、移动镜头、排兵布阵。

“这的确可以在一定程度上发挥作用”，Viyals说。

在加入DeepMind之前，维纽斯开发了一项图片搜索功能和Gmail的“智能回复”，后者可以根据邮件内容推荐相关的回复。该团队还在从事语音识别，让人工智能记住不同人的对话，从而在下次听到这个声音时识别出来。

“在《星际争霸2》里，也要应对这些问题。”维纽斯说。一个玩家可能看到对手的侦察兵，然后又消失在视野中。对人工智能来说，记住他们遇到的东西，并且理解这可能表明敌人正在某个地方修建基地，就需要使用LSTM神经网络。

维纽斯解释道，电脑可以把某个数据的记忆保留数十年的时间，但这种记忆不仅需要保存，还要在未来针对某个信息调取出来。

“在《星际争霸2》中，这非常重要，但却很微妙，可以将未来与过去联系起来。”他说，“很难建立因果关系，因为游戏中会发生很多事情。”

尽管自己也是星际玩家，但维纽斯表示，DeepMind的研究并没有使用之前的技术作为假设。

借助所谓的强化学习技术，神经网络可以直接解读他们获取的原始信号——在这个案例中，就是《星际争霸》过往的对战录像。

SC2LE

今年8月，DeepMind和暴雪联合发布了第一篇AI打星际的论文：《StarCraft II: A New Challenge for Reinforcement Learning》。

这篇论文的第一作者，就是维纽斯。

论文介绍了暴雪和DeepMind合作推出的SC2LE工具包，其中包括：

机器学习API：由暴雪开发，将研究人员和开发人员接入游戏，并自带首次发布的Linux工具包。至此，Windows、Mac与Linux系统均可在云端运行。
匿名游戏回放数据集：包含65000多场游戏记录，在接下来的几周将增加至50万场，帮助实现智能体间的离线比赛。
开源的DeepMindPySC2工具包：方便研究人员使用暴雪的特征层API训练智能体。
一系列简单的增强学习迷你游戏：帮助研究人员在特定任务上测试智能体的性能。

概述开发环境的论文：记录了迷你游戏的初始基线结果、监督学习数据以及智能体间完整的对抗记录。

DeepMind希望通过此举，推动更多研究社区和开放工具的开发。

围棋AI“带路党”

维纽斯的故事，让量子位想起他的同事：黄士杰、樊麾。

黄士杰和樊麾都是从小就对围棋产生了浓厚的兴趣。2003年，黄士杰从台湾师范大学毕业获得硕士学位，毕业论文：《电脑围棋打劫的策略》。

一年后，黄士杰开始攻读博士学位。2007年，黄士杰成为台湾师范大学围棋社首任社长，并带领同学征战台湾大专杯围棋赛。

黄士杰的棋力是业余六段。

除了在现实世界下围棋，黄士杰还一直在研究围棋程序。2006年，黄士杰独自开发的第一款围棋程序AjaGo，获得围棋大赛第11名；他参与的中国象棋程序Elephant（大象），获得大赛的铜牌。

2010年，黄士杰在Rémi Coulom的指导下，开发出围棋程序Erica，并在围棋比赛中击败日本的Zen，获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。

2012年，黄士杰加入DeepMind。然后开始AlphaGo的研发。

2015年，黄士杰与樊麾相遇。当年10月，樊麾受邀前往伦敦与尚不为人所知的AlphaGo展开对战。结果五战全败，输的樊麾一度怀疑人生。

樊麾是从小学棋的职业选手，曾经入选国少队，但后来自知与国内顶尖高手实力有差距，所以少年时选择远走欧洲，成为欧洲围棋冠军，法国围棋队总教练。

败给AlphaGo后，樊麾也加入了DeepMind，和黄士杰一样，成为围棋AI的“带路党”。后来的故事大家就熟知了，AlphaGo一路过关斩将，站在围棋之巅。

当然星际AI的研究，还在非常早期的阶段。最近在首尔的一场竞赛中，《星际争霸》职业玩家宋炳具用了不到半小时就轻易击败了4个人工智能机器人。但他也承认，它们的防守打法“有时候让人震惊”。

虽然过去20年维纽斯玩《星际争霸》机会并不多，但这位前西班牙冠军却对自己的《星际争霸》技术满怀信心。

“人工智能现在能打败我吗？我觉得还不能”，维纽斯笑道。

— 完 —

加入社群

量子位AI社群11群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot4入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot4，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

相关内容

黄士杰

关注 3

就职于 Google DeepMind，AlphaGo 的主要设计者之一。围棋台湾业余6段。

Yoshua Bengio最新《深度学习》MLSS2020教程，附104页PPT及视频

专知会员服务

134+阅读 · 2020年7月10日

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知会员服务

289+阅读 · 2020年3月10日

DeepMind科学家Trask《Grokking Deep Learning》图书及代码, 带你无障碍深度学习，高中数学OK

专知会员服务

93+阅读 · 2020年2月29日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

专知会员服务

84+阅读 · 2019年11月15日

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

专知会员服务

32+阅读 · 2019年10月12日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

AI魔方大师：1.2秒解魔方超世界纪录2倍，平均移动28步

智东西

3+阅读 · 2019年7月17日

兴军亮Science评述：多人德州扑克博弈新突破

中国科学院自动化研究所

19+阅读 · 2019年7月15日

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

科研圈

3+阅读 · 2019年7月12日

天才也勤奋！DeepMind哈萨比斯自述：领导400名博士向前，每天工作至凌晨4点

量子位

8+阅读 · 2018年12月17日

零基础搞懂强化学习？这份视频攻略不算迟

AI研习社

6+阅读 · 2018年4月25日

【重磅】DeepMind发布Nature论文: 博弈网络让智能体成为游戏大咖

专知

9+阅读 · 2018年1月17日

这个高仿真框架AI2-THOR，想让让强化学习快速走进现实世界

量子位

6+阅读 · 2017年12月16日

分析 | 盘点人工神经网络超过人类的6个领域

网易智能菌

5+阅读 · 2017年12月12日

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

PingWest品玩

4+阅读 · 2017年10月20日

DeepMind发布《星际争霸 II》深度学习环境

人工智能学家

9+阅读 · 2017年9月22日

Improving Visual Question Answering by Referring to Generated Paragraph Captions

Arxiv

7+阅读 · 2019年6月14日

FoveaBox: Beyond Anchor-based Object Detector

Arxiv

5+阅读 · 2019年4月8日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Video-to-Video Synthesis

Arxiv

9+阅读 · 2018年8月20日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Planar Object Tracking in the Wild: A Benchmark

Arxiv

5+阅读 · 2018年5月22日

Do deep reinforcement learning agents model intentions?

Arxiv

5+阅读 · 2018年5月21日

Deep Communicating Agents for Abstractive Summarization

Arxiv

5+阅读 · 2018年3月27日

Spatial-Temporal Memory Networks for Video Object Detection

Arxiv

4+阅读 · 2017年12月18日

Natural Language Guided Visual Relationship Detection

Arxiv

3+阅读 · 2017年11月21日

VIP会员

星际争霸界也出了位“带路党”，当年的冠军正帮谷歌AI击败人类

李杉 若朴 发自 凹非寺量子位 出品 | 公众号 QbitAI

SC2LE

围棋AI“带路党”

相关内容

李杉若朴发自凹非寺
量子位出品 | 公众号 QbitAI