研学· 强化学习 | 围观乌镇比赛，学习AlphaGo核心技术

2017 年 5 月 7 日 机器之心

机器之心原创

人工智能研学社

在 2015 年 10 月，AlphaGo 以 5:0 的比分全胜欧洲围棋大赛冠军，就此成为战胜人类职业围棋选手的第一个计算机程序。不久，在 2016 年 3 月，AlphaGo 又以 4:1 的比分打败了拿过 18 次世界冠军的李世石，一时震惊世界。这是人工智能发展史上的里程碑。解决围棋问题，不仅难在其高达 250,150 的巨型搜索空间，也难在位置评估上，尽管这一技术已经成功应用在解决其它战略游戏上，如双陆棋和国际象棋。

AlphaGo 的内部技术包括了深度 CNN，监督式学习，强化学习，以及蒙特卡洛搜索树 (MCTS) 等。AlphaGo 由两个阶段组成：神经网络训练通道，以及蒙特卡洛搜索。前者包括一个用专家棋谱进行训练的监督学习策略网络、一个快速走子策略、一个深度学习策略网络、以及一个深度学习价值网络。

其中，监督学习策略网络使用了多个卷积层、ReLU 非线性函数、以及一个输出 softmax 函数层来表示落子的概率分布。而训练 CNN 使用的输入数据为 19 × 19 × 48 的图像栈，其中 19 是围棋棋盘的宽度，48 是特征总数。状态-行动对则是从专家棋谱中采样，并通过随机梯度上升训练网络，以最大化给定状态下一个落子点的概率。快速走姿策略则使用了含有小型模式特征的线性 softmax。

在同样的网络结构和初始权重值下，通过策略梯度训练，RL 策略网络能够大幅优化监督学习策略网络。在终止状态，奖励函数对「赢」+1，「输」-1，否则为 0。实战在现有的策略网络和一个对网络的随机重复中进行，以稳定学习过程，并防止过度拟合。

新采用的 RL 价值网络，与原有的监督学习策略网络的结构还是一样的，除了它的输出改为了单个标量，作为对特定落子点的预测。价值网络是通过蒙特卡洛策略评估方法进行学习的。因为连续的几个落子点的位置高度相关，过度拟合成为一个需要解决的问题。因此，数据都是通过 RL 策略网络自我对战而得到的。权重则是从状态-输出变量对中回归训练得到的，其中使用了随机梯度下降来最小化预测值与对应输出的均方误差。在蒙特卡洛搜索树阶段，AlphaGo 通过前瞻式搜索进行选子。它会构建一个从当前状态开始的不完整树，其中包括这几个阶段：1）选择一个节点进行下一步探索，2）根据 SL 策略网络和统计结果扩展树叶节点，3）混合使用 RL 价值网络和走子策略对树叶节点进行评估，4）储存评估结果，并更新行动参数。至此，下一步棋就选出来了。

其它阅读材料

Sutton, R. S. and Barto, A. G. (2017). *Reinforcement Learning: An Introduction (2nd Edition, in preparation)*. Section 16.7. http://incompleteideas.net/sutton/book/the-book-2nd.html

推荐者介绍:

本期研习材料由 Yuxi Li 博士推荐。Yuxi Li 博士是加拿大阿尔伯塔大学（University of Alberta）计算机系博士、博士后。致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授；在美国波士顿任资深数据科学家等。2017 年 1 月在 arXiv 上发表 Deep Reinforcement Learning: An Overview 深度强化学习综述论文，https://arxiv.org/abs/1701.07274.

机器之心曾经发表过的介绍强化学习的文章：

深度学习漫游指南：强化学习概览

ACM 最新月刊文章：强化学习的复兴

论文｜用于对话生成的深度强化学习

重磅 | 详解DeepMind深度强化学习，搭建DQN详细指南（附论文）

专题 | 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）

本期线上活动：围观乌镇比赛

去年，来自 DeepMind 的 AlphaGo 与李世石的围棋大战让人印象深刻。而今年 5 月 23 日至 27 日，AlphaGo 将在「中国乌镇·围棋峰会」上与以柯洁为代表的顶尖棋手进行对弈。

此次峰会特别设计了 AlphaGo 与中国顶尖棋手的多种比赛形式，包括人机配对赛和团队赛。具体如下：

人机配对赛：中国职业棋手将与另一名职业棋手对弈——只不过每一方棋手都将有 AlphaGo 作为自己的队友与他们交替落子。
团队赛：由五位中国顶尖棋手组队与 AlphaGo 进行对弈，共同测试 AlphaGo 在面对组合风格时所展现的创造力和适应性。
柯洁对阵 AlphaGo：AlphaGo 与世界排名第一的棋手柯洁进行三番棋对弈。

去年的 AlphaGo 版本被认为还不是很完善，当时 AlphaGo 主要是依靠大量学习人类棋手的棋谱来提高棋艺。随后 AlphaGo 进入到完全的自我深度学习阶段，也就是完全摒弃人类棋手的思维方式，按照自己（左右互搏）的方式研究围棋。去年年底，AlphaGo 化名 Master，在网络上与人类顶尖棋手下了 60 盘测试棋，取得 60 局全胜的骄人战绩。通过那次测试，谷歌旗下的 DeepMind 又发现了 AlphaGo 不少需要完善的地方，5 月中下旬即将与柯洁进行正式人机大战的，将是 AlphaGo2.0 版本。

除此之外，此次比赛还有其它值得关注的方面：

在快棋对弈中所向披靡的 AlphaGo，是否会在慢棋对弈中给人类机会？
AlphaGo1.0 曾在李世石比赛中被击中「命门」，进阶升级后的 AlphaGo 是否还会存在弱项？
AlphaGo 所需要的计算资源上，是采用远程支持的形式，还是会搬服务器到现场？AlphaGo 的单机版本推出还有多远？
在挑战柯洁之后，AlphaGo 是否会宣布实际商业应用或核心进军的领域？AlphaGo 往何处去？也是外界对人工智能具体商用的期待之一。

入群方式：

添加机器之心小助手微信，并注明：加入强化学习组

完成小助手发送的入群测试（题目会根据每期内容变化），并提交答案，以及其他相关资料（教育背景、从事行业和职务、人工智能学习经历等）
小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」
进群后会收到当周的学习材料和学习进度安排，根据指导进行有针对性的学习和讨论（群内会有单独的文件进行推送）

入群测试 QUIZ

1. 请比较 Q-learning 和 policy gradient 两种算法

2. AlphaGo 中用了哪些人工智能技术？它们如何协同工作？

3. AlphaGo 核心技术有哪些应用？

点击阅读原文，报名参与机器之心 GMIS 2017 ↓↓↓

登录查看更多

相关内容

AlphaGo

关注 21

AlphaGo 是一款人工智能围棋程序，由被 Google 收购的 DeepMind 公司开发。 2015年10月，AlphaGo v13 在与职业棋手、欧洲冠军樊麾二段的五番棋比赛中，以 5:0 获胜。2016年3月9日 - 15日，AlphaGo v18 在与韩国职业棋手李世石九段的五番棋比赛中，以 4:1 获胜，赛后，AlphaGo 荣获韩国棋院授予的「第〇〇一号名誉九段」证书。2016年7月19日，AlphaGo 在 GoRantings 世界围棋排名中超过柯洁，成为世界第一。

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

最新《神经架构搜索NAS全面综述论文》挑战和解决方案，30页pdf

专知会员服务

121+阅读 · 2020年6月5日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

《强化学习》简介小册，24页pdf

专知会员服务

280+阅读 · 2020年4月19日