比AlphaGo Zero更强的AlphaZero来了！8小时解决一切棋类！ - 专知

会员服务 ·

0

比AlphaGo Zero更强的AlphaZero来了！8小时解决一切棋类！

2017 年 12 月 7 日 炼数成金订阅号 技术备忘录

读过AlphaGo Zero论文的同学，可能都惊讶于它的方法的简单。另一方面，深度神经网络，是否能适用于国际象棋这样的与围棋存在诸多差异的棋类？MCTS（蒙特卡洛树搜索）能比得上alpha-beta搜索吗？许多研究者都曾对此表示怀疑。

但今天AlphaZero来了（https://arxiv.org/pdf/1712.01815.pdf），它破除了一切怀疑，通过使用与AlphaGo Zero一模一样的方法（同样是MCTS+深度网络，实际还做了一些简化），它从零开始训练：

4小时就打败了国际象棋的最强程序Stockfish！

2小时就打败了日本将棋的最强程序Elmo！

8小时就打败了与李世石对战的AlphaGo v18！

在训练后，它面对Stockfish取得100盘不败的恐怖战绩，而且比之前的AlphaGo Zero也更为强大（根据论文后面的表格，训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero）。

这令人震惊，因为此前大家都认为Stockfish已趋于完美，它的代码中有无数人类精心构造的算法技巧。

然而现在Stockfish就像一位武术大师，碰上了用枪的AlphaZero，被一枪毙命。

在reddit的国象版面的讨论中（Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess），大家纷纷表示AlphaZero已经不是机器的棋了，是神仙棋，优美，富有策略性，弃子灵活坚决，更能深刻地谋划（maneuver），完全是在调戏Stockfish。

国际象棋的基本规则，大家应该都知道，可以看这个Youtube视频的分析：https://www.youtube.com/watch?v=lb3_eRNoH_w 。Stockfish作为传统AI的代表，有人类设计的评估函数，整天想着“怎样怎样可在多少步后吃对方的子”。AlphaZero是“以德服人”，Stockfish贪吃就给Stockfish吃，没关系，AlphaZero有自己的想法：它直接让Stockfish的一堆子连家都出不了。Stockfish只能干瞪眼。AlphaZero想怎么走就怎么走，Stockfish疲于奔命，四处救火。这一切，正如AlphaGo此前在围棋上所显示的惊人控制力。

很有趣的是，和围棋的情况一样，AlphaZero证明了许多人类开局是正确的。不过，AlphaZero不喜欢西西里防御。

训练过程极其简单粗暴。超参数，网络架构都不需要调整。无脑上算力，就能解决一切问题。

Stockfish和Elmo，每秒种需要搜索高达几千万个局面。

AlphaZero每秒种仅需搜索几万个局面，就将他们碾压。深度网络真是狂拽炫酷。

当然，训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了，需要5000个TPU v1作为生成自对弈棋谱。

不过，随着硬件的发展，这样的计算资源会越来越普及。未来的AI会有多强大，确实值得思考。

个人一直认为MCTS+深度网络是非常强的组合，因为MCTS可为深度网络补充逻辑性。我预测，这个组合未来会在更多场合显示威力，例如有可能真正实现自动写代码，自动数学证明。

为什么说编程和数学，因为这两个领域和下棋一样，都有明确的规则和目标，有可模拟的环境。

（在此之前，深度学习的调参党和架构党估计会先被干掉...... 目前的很多灌水论文，电脑以后自己都可以写出来）

也许在5到20年内，我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了......

文章来源：知乎

《开启智慧眼-深度玩转计算机视觉与机器认知》不同于传统的在线课程，本课程将分为经典算法实现（课内）和应用问题探索（课外）两个部分。老师将在课外引导学员积极探索具体的应用问题，鼓励和组织学员尝试产品研发，并可为优秀学员提供实习和创业机会。点击下方二维码报名课程

登录查看更多

1

相关内容

AlphaZero

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

专知会员服务

80+阅读 · 2019年11月23日

【BAAI|2019】机器能被训练思考吗？我们怎么知道呢？也就是说，机器能被教会意识吗？，Donald B. Rubin（附pdf）

【BAAI|2019】机器能被训练思考吗？我们怎么知道呢？也就是说，机器能被教会意识吗？，Donald B. Rubin（附pdf）

专知会员服务

24+阅读 · 2019年11月21日

AlphaZero 实战：从零学下五子棋（附代码）

AlphaZero 实战：从零学下五子棋（附代码）

AI研习社

3+阅读 · 2018年1月13日

一张图看懂AlphaGo Zero

一张图看懂AlphaGo Zero

AI前线

6+阅读 · 2017年11月17日

已删除

将门创投

5+阅读 · 2017年10月20日

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

PingWest品玩

4+阅读 · 2017年10月20日

【教程】AlphaGo Zero 核心技术 - David Silver深度强化学习课程中文学习笔记

【教程】AlphaGo Zero 核心技术 - David Silver深度强化学习课程中文学习笔记

专知

126+阅读 · 2017年10月19日

Hyper-Parameter Optimization: A Review of Algorithms and Applications

Hyper-Parameter Optimization: A Review of Algorithms and Applications

Arxiv

16+阅读 · 2020年3月12日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

DARTS: Differentiable Architecture Search

Arxiv

3+阅读 · 2018年6月24日

Visual and Semantic Knowledge Transfer for Large Scale Semi-supervised Object Detection

Arxiv

9+阅读 · 2018年3月13日

Wasserstein Auto-Encoders

Arxiv

7+阅读 · 2018年3月12日

VIP会员

相关主题

蒙特卡洛树搜索

马尔科夫链蒙特卡洛采样

相关VIP内容

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

专知会员服务

80+阅读 · 2019年11月23日

【BAAI|2019】机器能被训练思考吗？我们怎么知道呢？也就是说，机器能被教会意识吗？，Donald B. Rubin（附pdf）

【BAAI|2019】机器能被训练思考吗？我们怎么知道呢？也就是说，机器能被教会意识吗？，Donald B. Rubin（附pdf）

专知会员服务

24+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于AI的动态任务分配策略实现多智能体系统有意义人类控制》报告

《超越连接：AI驱动网络未来愿景》最新报告

人工智能赋能多域作战：能力与挑战

《战场空间决策优势：AI基础与应用研究》总结报告

相关资讯

AlphaZero 实战：从零学下五子棋（附代码）

AlphaZero 实战：从零学下五子棋（附代码）

AI研习社

3+阅读 · 2018年1月13日

一张图看懂AlphaGo Zero

一张图看懂AlphaGo Zero

AI前线

6+阅读 · 2017年11月17日

已删除

将门创投

5+阅读 · 2017年10月20日

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

人类：“共同探索围棋极限！”新AlphaGo：“不了吧，我到了。”

PingWest品玩

4+阅读 · 2017年10月20日

【教程】AlphaGo Zero 核心技术 - David Silver深度强化学习课程中文学习笔记

【教程】AlphaGo Zero 核心技术 - David Silver深度强化学习课程中文学习笔记

专知

126+阅读 · 2017年10月19日

相关论文

Hyper-Parameter Optimization: A Review of Algorithms and Applications

Hyper-Parameter Optimization: A Review of Algorithms and Applications

Arxiv

16+阅读 · 2020年3月12日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

DARTS: Differentiable Architecture Search

Arxiv

3+阅读 · 2018年6月24日

Visual and Semantic Knowledge Transfer for Large Scale Semi-supervised Object Detection

Arxiv

9+阅读 · 2018年3月13日

Wasserstein Auto-Encoders

Arxiv

7+阅读 · 2018年3月12日

大家都在搜

大型语言模型

蓝牙安全攻防

太合音乐上市

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员