DeepMind回应一切：AlphaStar两百年相当于人类多长时间？

会员服务 ·

DeepMind回应一切：AlphaStar两百年相当于人类多长时间？

2019 年 1 月 26 日 未来产业促进会

点击上方“公众号”可以订阅哦！

来源：新智元

编辑：小芹元子

【导读】昨天DeepMind的AlphaStar横扫星际2职业玩家，项目负责人Oriol Vinyals和David Silver两位技术大牛亲自答网友提问。新智元摘选点赞最高的15个问题，关于APM、算法和工程的精华。

“AI早晚会超越人类”的念头，其实从AlphaGo开始，就已经在每个人心底，悄悄蔓延开。

只不过我们每个人心里还是很不甘心！面对智力甚至无法达到人类婴儿水平的AI，玩起游戏来，已经没人能打得过了。

AlphaStar取胜靠的APM、计算机多线操作，还是AI已经有了战术判断、宏观大局分析能力？

赛后，DeepMind官方在Reddit上，回复了网友关于AlphaStar的种种疑问。

此次派出的是Oriol Vinyals和David Silver。

Oriol Vinyals 是 Google 旗下人工智能公司 DeepMind 的研究科学家，年少时，他曾是西班牙《星际争霸》游戏排名第一的电竞高手，同时参与 Gmail、Google 图像识别服务开发。

David Silver是DeepMind首席研究员，带领DeepMind强化学习研究小组，也是AlphaGo项目的负责人。可以说，Silver从AlphaGo诞生前起，到最强版本AlphaGo Zero，一直在用深度强化学习攻克围棋。David Silver也是AlphaStar项目的联合负责人。

AlphaStar获胜靠的是APM吗？

问：APM是怎么回事？我印象中是被SC2限制为180 WPM，但看视频，AS的平均APM似乎很长一段时间都远远超过了180 WPM，而且DeepMind的博客文章里提到了上面的图表和数字，但没有解释为什么APM这么高。

Oriol Vinyals：我认为这是一个很好的问题，也是我们想要澄清的。

我们向TLO和暴雪咨询了关于APM的问题，也对APM增加了一个硬性限制。特别是，我们设置了5秒内最多600 APM, 15秒内最多400 APM, 30秒内最多320 APM, 60秒内最多300 APM。

如果智能体在此期间发出更多操作，我们会删除/忽略这些操作。这些是来自人类统计的数据。

同样重要的是，暴雪在APM计算中多次计算某些动作(上面的数字是指来自pysc2中的“代理动作”)。

同时，我们的智能体使用模仿学习，这意味着我们经常会看到非常“垃圾”的行为。也就是说，并不是所有的操作都是有效的操作，因为代理倾向于发送糟糕的“移动”命令，例如在周围绕来绕去。

有人已经在reddit的帖子中指出了这一点——AlphaStar的有效APM (或EPM) 要低得多。

AlphaStar一共有几个版本？

问：在PBT中需要多少种不同的agent才能保持足够的多样性，以防止灾难性遗忘？这与agent的数量有多大关系，或者只需要几个agent就可以保持鲁棒性？有没有与比较常用的历史检查点策略的效率进行比较?

David Silver：我们保留每个agent的旧版本作为AlphaStar联赛的竞争对手。

当前的agent通常根据对手的胜率来打。这在防止灾难性遗忘方面是非常成功的，因为agent必须要能够继续打败它之前的所有版本。

我们尝试了许多其他的多智能体学习策略，发现这种方法非常有效。此外，增加AlphaStar联赛的多样性也很重要，尽管这实际上是灾难性遗忘的另一个方面。

很难给出准确的数字，但我们的经验是，丰富联盟中的战略空间有助于使最终的智能体更强大。

AlphaStar的关键算法是什么？

问：像AlphaGo和AlphaZero这样的agent接受的是完美信息的博弈训练。像星际争霸这样的不完美信息的博弈如何影响agent的设计？AlphaStar对之前的观察是否有类似于人类的“记忆”?

David Silver：有趣的是，基于搜索的方法，例如AlphaGo和AlphaZero，实际上可能更难适应不完美的信息。例如，基于搜索的扑克算法 (例如DeepStack或Libratus) 通过belief states显式地推理对手的牌。

但AlphaStar是一个model-free的强化学习算法，可以隐式地对对手进行推理，即通过学习对其对手最有效的行为，而不是试图建立一个对手实际看到的模型——可以说，这是一种更容易处理不完全信息的方法。

此外，不完美的信息博弈并没有一种绝对最优的博弈方式——这取决于对手的行为。这就是《星际争霸》中有趣的“石头剪刀布”动态的来源。

这是我们在AlphaStar联赛中使用的方法背后的动机，以及为什么这种方法对于覆盖所有战略空间很重要——这在围棋之类的游戏是不需要的，其中有一个minimax的最优策略可以击败所有对手，不管对手做出何种举动。

AlphaStar有使用人类信息，还是全靠自我对弈？

问：你们还尝试了什么其他方法吗？大家非常好奇是否涉及任何树搜索、深度环境模型或分层RL技术，但似乎没有一个涉及；这些方法中有那个在尝试后取得了可观的进步吗？

子问题：鉴于SC2的极端稀疏性，你对于单纯self-play是否对SC2有效这一点有什么看法？OA5在没有任何模仿学习或领域知识的情况下就成功地打败了DoTA2，所以仅仅是拥有巨大动作空间的长游戏并不能说明self-play就不能成功。

David Silver：我们在self-play方面确实取得了一些初步的积极成果，事实上，我们的agent的早期版本完全通过self-play，使用基本策略就击败了内置的bot。

但是，有监督的人类数据对引导探索过程非常有帮助，并有助于更广泛地覆盖高级策略。

特别是，我们包含了一个policy distillation cost，以确保在整个训练过程中，agent以某种概率继续尝试类似人的行为，这跟从self-play开始相比，发现不太可能的策略要更容易。

迄今为止最有效的方法没有使用树搜索、环境模型或显式HRL。当然，这些都是很大的开放研究领域，不可能系统地尝试所有可能的研究方向，而且这些领域很可能为未来的研究带来丰硕的成果。

需要提一下的是，我们的研究中有一些可能被认为是“hierarchical”的元素。

AlphaStar消耗的计算量如何？

问：你们使用的TPU和CPU总计算时间是多少？

David Silver：为了训练AlphaStar，我们使用Google的v3 TPU构建了一个高度可伸缩的分布式训练设置，该设置支持从数千个《星际争霸2》的并行实例中学习的agents。

AlphaStar联赛运行了14天，每个agent使用16个TPU。最终的AlphaStar agent由已发现的最有效的策略组合而成，在单个桌面GPU上运行。

AlphaStar 和 OpenAI Five 谁更强？

问：谈到OpenAI Five，似乎它在DoTA2游戏中崩溃，你们是否有进行检查看看AlphaStar在self-play中是否会出现类似的问题？

David Silver：其实有很多不同的方法可以通过self-play学习。我们发现，单纯的self-play实现往往会陷入特定的策略中，或者忘记如何打败以前的策略。

AlphaStar联赛也是基于agent的自己与自己打，但它的多智能体学习机制鼓励agent在面对各种不同的对手策略时进行更强的博弈，并且在实践中，面对不同寻常的对抗模式时，似乎会产生更强的行为。

神经网络执行一个动作需要多少时间？

问：神经网络在GPU上运行的时间是50ms还是350ms，还是指的是不同的东西(前向传递 vs 动作限制)?

David Silver：神经网络本身需要大约50ms来计算一个动作，但这只是发生在游戏事件和AlphaStar对该事件作出反应之间的处理的一部分。

首先，AlphaStar平均每250ms观察一次游戏，这是因为神经网络除了动作(有时称为时间抽象动作)之外，还会选择一些时间等待。

然后，观察结果必须从Starcraft传递到Starcraft，除了神经网络选择动作的时间之外，这又增加了50ms的延迟。总的来说，平均反应时间是350ms。

AlphaStar对战MaNa输掉的那一场原因是什么？

问：许多人将AlphaStar的单次失利归咎于算法在最后一场比赛中被限制了视觉。我个人并不认为这是一个令人信服的解释，因为相位棱镜在战争的迷雾中进进出出，而AI则在整个军队中来回移动作为回应。这看起来绝对像是理解上的差距，而不是机械操作上的局限。你对AlphaStar以这种方式失败的原因有什么看法?

David Silver：很难解释我们为什么会输掉(或赢得)任何一场游戏，因为AlphaStar的决策很复杂，是动态多智能体训练过程的结果。

MaNa打了一场非常精彩的游戏，似乎发现并利用了AlphaStar的一个弱点——但是很难说这个弱点是由于摄像头、较少的训练时间、不同的对手等等，而不是其他agent。

AlphaStar是从摄像头还是从API获取信息？

问：本次比赛中AI是可以看到全地图的。这与从API中获取原始数据并简单地将它们抽象为结构化数据作为NN的输入有何不同？似乎新版本不再使用要素图层了？PySC2（DeepMind的星际争霸II学习环境的Python组件。它将暴雪娱乐的星际争霸II机器学习API暴露为Python RL环境）中建筑的状态，是在造中、已建成等等。这些信息在camera_interface方法中是如何保留的？

Oriol Vinyals：实际上，通过摄像头（和非摄像头）接口，当我们将其作为列表输入（由神经网络变换器进一步处理）时，智能体就能获得是什么建筑被被建造出来的信息。

通常，即使没有保留这样的列表，智能体也会知道什么建筑被建造出来。智能体的内存（LSTM）跟踪所有先前发布的操作，以及过去访问过的所有摄像头位置。

我们确实为小地图使用了要素图层，但是对于屏幕，您可以将要素列表视为“转置”该信息。事实证明，即使是处理图像，将每个像素作为列表独立处理，也能很好地工作！更多信息请参阅：https://arxiv.org/abs/1711.07971

AlphaStar的两百年相当于人类多久时间？

问：有多少类似星际争霸这种需要200年训练时间的游戏？

Oriol Vinyals：平均每场比赛持续10分钟，这相当于大约1000万场比赛。但请注意，并非所有智能体都经过长达200年的培训，这是各种版本的AlphaStar中智商最高的。

AlphaStar如何攒钱生成高级兵种？

问：它怎么学习到“为某种目的存钱”，比如攒钱生成高级兵种？这种“不作为”的操作被称作NOOP，在RL算法中，会越来越多的认为NOOP是非理想点的最佳决策。

David Silver：事实上AlphaStar选择执行多少次NOOP，就是作为其行动的一部分。

这首先是从监督数据中学习的，镜像人类操作，这意味着AlphaStar通常以与人类玩家类似的速度进行“点击”操作。

然后通过强化学习来改进，可以选择减少或增加NOOP的数量。因此，通过事先规划好有几个NOOP，可以很容易地实现“为X省钱”。

AlphaStar的输入数据是实时的吗？

问：最终使用的步长是多少？在博客中你写道，星际争霸的每一帧都被用作输入的一步。但是，你还提到平均处理时间为50ms，这将超过即时游戏给定22.4fps时需要<46ms的要求。所以你们是逐帧作为输入，还是隔帧呢？隔的帧数是固定还动态？

Oriol Vinyals：我们是逐帧的，但是由于延迟和您注意到的几个延迟，操作将仅在该步骤结束后处理（即，我们异步播放）。另一种选择是锁定步骤，这使得玩家的游戏体验不是很好:)

AlphaStar还能玩星际2的其他地图吗？

问：你们是否做过泛化 (generalizations) 测试？假设没有一个agent可以选择不同的族来打(因为可用的单元/操作是完全不同的，甚至在架构上也不能工作)，但是至少应该能推广到其他地图，是吗?

David Silver：我们实际上(无意中)测试了这个。我们有一个AlphaStar的内部排行榜，我们没有将排行榜的地图设置为Catalyst，而是将字段留空——这意味着它能在所有的Ladder 地图上运行。

令人惊讶的是，agent仍然很强大，表现也很不错，尽管还不能达到我们昨天公开的那个水平。

只用台式机如何在机器学习和强化学习领域取得好成绩？

问：你有什么建议ML/RL爱好者关注的领域吗？哪些领域不需要超过台式机级别的计算资源就可以做出有用的贡献?

Oriol Vinyals：有很多事情不需要大量计算资源就可以做，可以推进ML的进步。

我最喜欢的例子是我们做机器翻译的时候，我们开发了一个叫做seq2seq的东西，它有一个大型的LSTM，在机器翻译中达到了state of the art的性能，并且只使用了8个GPU训练。

与此同时，蒙特利尔大学开发了叫做“attention”的机制，这是ML技术的一个根本性进步，使得模型变得更小，从而不需在大型硬件上运行。

普通玩家何时能对战AlphaStar？

问：在11月 Blizzcon的演讲中，IIRC Vinyals说他很乐意将SC2 bot开放给普通玩家。这件事有什么计划吗？

Oriol Vinyals：这让人兴奋！我们非常感谢社区的支持，我们希望将社区的反馈纳入到我们的工作中，这也是为什么我们要发布这10个游戏回放供社区去评论和欣赏。我们将随时告诉大家我们的计划进展！

参考链接：

https://www.reddit.com/r/MachineLearning/comments/ajgzoc/we_are_oriol_vinyals_and_david_silver_from/

　　注：投稿请电邮至124239956@qq.com ，合作或加入未来产业促进会请加：www13923462501 微信号或者扫描下面二维码：

　　文章版权归原作者所有。如涉及作品版权问题，请与我们联系，我们将删除内容或协商版权问题!联系QQ：124239956

登录查看更多

相关内容

David Silver

关注 1

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【Google-WWW2020】会话域探索的动态组合， Conversational Domain Exploration

专知会员服务

10+阅读 · 2020年3月22日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

专知会员服务

18+阅读 · 2020年2月2日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

【强化学习轻松入门】《Reinforcement Learning 101》，Shweta Bhatt

专知会员服务

50+阅读 · 2020年1月3日

纽约大学AI Now研究所发布《AI Now 2019 年度人工智能报告》, 100页pdf

专知会员服务

37+阅读 · 2019年12月18日

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

专知会员服务

84+阅读 · 2019年11月15日

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

科研圈

3+阅读 · 2019年7月12日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

天才也勤奋！DeepMind哈萨比斯自述：领导400名博士向前，每天工作至凌晨4点

量子位

8+阅读 · 2018年12月17日

DeepMind高赞课程：24小时看完深度强化学习最新进展（视频）

新智元

14+阅读 · 2018年11月24日

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

【干货】强化学习介绍

人工智能学家

13+阅读 · 2018年6月24日

这里是强化学习入门，的入门 | 绝对新手友好

量子位

5+阅读 · 2018年4月5日

【AlphaGo Zero】AlphaGo Zero横空出世，DeepMind Nature论文解密不使用人类知识掌握围棋

产业智能官

5+阅读 · 2018年1月8日

DeepMind发布《星际争霸 II》深度学习环境

人工智能学家

9+阅读 · 2017年9月22日

AI都干过什么让人细思极恐的事？

全球创新论坛

4+阅读 · 2017年9月15日

Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization

Arxiv

4+阅读 · 2020年2月14日

Learning When Not to Answer: A Ternary Reward Structure for Reinforcement Learning based Question Answering

Arxiv

6+阅读 · 2019年4月3日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Improving Question Answering by Commonsense-Based Pre-Training

Arxiv

5+阅读 · 2018年10月5日

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月6日

Differential Attention for Visual Question Answering

Arxiv

5+阅读 · 2018年4月3日

Modeling Others using Oneself in Multi-Agent Reinforcement Learning

Arxiv

4+阅读 · 2018年3月22日

A dataset and architecture for visual reasoning with a working memory

Arxiv

3+阅读 · 2018年3月16日

A Comparison of Word Embeddings for the Biomedical Natural Language Processing

Arxiv

3+阅读 · 2018年2月1日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

VIP会员