【AlphaGo十年研究回顾】DeepMind首席科学家解读ICML经典论文（视频）

2017 年 9 月 9 日 新智元

1新智元编译

来源：谷歌博客

作者：Anna Ukhanova

编译：刘小芹

【新智元导读】ICML 2017 Test-of-Time 奖 Sylvain Gelly（现在是苏黎世谷歌大脑团队的研究员）和 David Silver（现在是DeepMind AlphaGo团队首席研究员）2007年的工作：Combining Online and Offline Knowledge in UCT，提出将离线学习或在线创建的知识纳入搜索算法以增加其有效性的新方法。这一方法促成了AlphaGo的成功。谷歌研究博客发表文章回顾AlphaGo 十年研究经历，并对这篇经典论文进行解读。

人们不是每天都有机会停下来思考以前的工作如何帮助了当前的成功，如何影响了其他的进步，以及在今天的背景下如何解释它们。这就是 ICML Test-of-Time 奖项设置的目的。今年这一奖项颁发给了 Sylvain Gelly（现在是苏黎世谷歌大脑团队的研究员）和 David Silver（现在是DeepMind AlphaGo团队首席研究员）2007年的工作：Combining Online and Offline Knowledge in UCT。这篇文章提出将离线学习或在线创建的知识纳入搜索算法以增加其有效性的新方法。

围棋是一种古老的中国棋盘游戏，知名度极高，全球有数一百万计的棋手。自从“深蓝”（Deep Blue）在90年代末在国际象棋游戏中取得成功以来，围棋被认为是机器学习和游戏的下一个benchmark。确实，围棋具有简单的规则，能够很有效地被模拟，以及其进展可以被客观地测量。但是，由于围棋中可能的走法（moves）的搜索空间非常大，使一个ML系统下好围棋非常具有挑战性。在过去两年中，DeepMind 的 AlphaGo 已经突破机器学习在游戏中的可能性的局限，为了成功地击败世界上最好的一些棋手，带来了许多创新和技术进步。

在 AlphaGo 取得成功的10多年前，在国际象棋中取得成功的经典树搜索（tree search）技术是计算机围棋程序的主要方法，但是这样的围棋程序只能达到人类玩家的弱业余水平。感谢蒙特卡罗树搜索——基于对游戏中一个位置的可能结果进行抽样，并利用这些模拟的结果逐步改进搜索树的一种新型搜索算法——计算机能够更深入地搜索游戏。这是很重要的一点，因为它使得程序可以纳入更少的人类知识，在程序中包含人类知识是一项很难正确地做到的任务。实际上，人类专家无法表达或没有想到的任何缺失的知识（missing knowledge）都可能对计算机评估游戏的位置时犯错误，最后导致满盘皆输。

2007年，Sylvain 和 David 通过探索将两种类型的知识结合来增强蒙特卡罗树搜索技术：（i）在线（online），下一步的决策取决于当前的位置，走下一步时使用当前的计算资源，（ii）离线（offline），学习过程完全发生在游戏开始之前，并被概括为一个可应用于游戏中所有可能位置的模型（尽管在学习过程中并未看到所有可能的位置）。这些方法最终做成了MoGo程序，其表现比以前的围棋算法有所提高。

对于online部分，他们调整了一些简单的想法，即某些动作不一定相互依赖。例如，假如你预定去度假，酒店、航班和租车等的选择显然取决于你的目的地。但是，一旦决定了目的地，这些东西就（大部分）可以独立进行。围棋可以应用同样的想法，即可以将某些动作部分独立地估算出来，以获得尽管不精确，但非常快速的估计。当然，当时间允许时，也会分析确切的依赖关系。

对于离线知识（offline knowledge）的并入，他们探索了使用强化学习使计算机自己和自己对弈，探索学习一个位置值的近似（approximation of the position value）的影响，并在树搜索算法中加上这些知识。他们还研究了如何以类似的方式使用基于人类知识的专业棋谱。这种离线知识有两点帮助：首先，它有助于将程序集中在像在离线中学习到的好的下法；第二，当程序试图估计给定的位置值时，它有助于模拟更逼真的游戏。

这些改进在围棋的一种较小版本（9x9）的游戏中取得了很好的成果，甚至在一场展示比赛中打败了一名职业玩家，并且在完整的围棋比赛（19x19）中也达到了业余水平中的更高水平。2007年以来，我们已经看到许多来自世界各地的研究的快速进步（几乎每个月都有），这些研究使得围棋算法的进步达到高潮的是 AlphaGo（其本身也进行了许多创新）。

最重要的是，这些算法和技术不仅局限于在游戏中应用，还可以在许多领域中带来进步。David和Sylvain在10年前合作的研究所做的贡献，对于机器学习的许多进步来说都是非常重要的，它有助于我们每天的生活。这是他们当之无愧的奖项，我们向这两位作者表达衷心的祝贺。

原文：https://research.googleblog.com/2017/09/seminal-ideas-from-2007.html

【号外】新智元正在进行新一轮招聘，飞往智能宇宙的最美飞船，还有N个座位

点击阅读原文可查看职位详情，期待你的加入~

登录查看更多

相关内容

AlphaGo

关注 21

AlphaGo 是一款人工智能围棋程序，由被 Google 收购的 DeepMind 公司开发。 2015年10月，AlphaGo v13 在与职业棋手、欧洲冠军樊麾二段的五番棋比赛中，以 5:0 获胜。2016年3月9日 - 15日，AlphaGo v18 在与韩国职业棋手李世石九段的五番棋比赛中，以 4:1 获胜，赛后，AlphaGo 荣获韩国棋院授予的「第〇〇一号名誉九段」证书。2016年7月19日，AlphaGo 在 GoRantings 世界围棋排名中超过柯洁，成为世界第一。

【DeepMind深度学习课程】无监督表示学习前沿进展，129页ppt，Unsupervised Representation Learning

专知会员服务

79+阅读 · 2020年6月29日

【DeepMind硬核课】卷积神经网络图像识别前沿进展，附110页ppt与视频

专知会员服务

105+阅读 · 2020年6月27日

【DeepMind硬核课】深度学习注意力与记忆机制，附70页ppt与视频

专知会员服务

172+阅读 · 2020年6月25日

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日