比AlphaGo Zero更强的AlphaZero来了！8小时解决一切棋类！

会员服务 ·

比AlphaGo Zero更强的AlphaZero来了！8小时解决一切棋类！

2017 年 12 月 6 日 德先生

来源：知乎作者@PENG Bo

读过AlphaGo Zero论文的同学，可能都惊讶于它的方法的简单。另一方面，深度神经网络，是否能适用于国际象棋这样的与围棋存在诸多差异的棋类?MCTS（蒙特卡洛树搜索）能比得上alpha-beta搜索吗？许多研究者都曾对此表示怀疑。

但今天AlphaZero来了（https://arxiv.org/pdf/1712.01815.pdf），它破除了一切怀疑，通过使用与AlphaGo Zero一模一样的方法（同样是MCTS+深度网络，实际还做了一些简化），它从零开始训练：

4小时就打败了国际象棋的最强程序Stockfish！
2小时就打败了日本将棋的最强程序Elmo！
8小时就打败了与李世石对战的AlphaGo v18！

在训练后，它面对Stockfish取得100盘不败的恐怖战绩，而且比之前的AlphaGo Zero也更为强大（根据论文后面的表格，训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero）。

这令人震惊，因为此前大家都认为Stockfish已趋于完美，它的代码中有无数人类精心构造的算法技巧。

然而现在Stockfish就像一位武术大师，碰上了用枪的AlphaZero，被一枪毙命。

在reddit的国象版面的讨论中（Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess），大家纷纷表示AlphaZero已经不是机器的棋了，是神仙棋，非常优美，富有策略性，更能深刻地谋划（maneuver），完全是在调戏Stockfish。

喜欢国象的同学注意了：AlphaZero不喜欢西西里防御。

训练过程极其简单粗暴。超参数，网络架构都不需要调整。无脑上算力，就能解决一切问题。

Stockfish和Elmo，每秒种需要搜索高达几千万个局面。

AlphaZero每秒种仅需搜索几万个局面，就将他们碾压。深度网络真是狂拽炫酷。

当然，训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了，需要5000个TPU v1作为生成自对弈棋谱。

不过，随着硬件的发展，这样的计算资源会越来越普及。未来的AI会有多强大，确实值得思考。

个人一直认为MCTS+深度网络是非常强的组合，因为MCTS可为深度网络补充逻辑性。我预测，这个组合未来会在更多场合显示威力，例如有可能真正实现自动写代码，自动数学证明。

为什么说编程和数学，因为这两个领域和下棋一样，都有明确的规则和目标，有可模拟的环境。

在此之前，深度学习的调参党和架构党估计会先被干掉...... 目前的很多灌水论文，电脑以后自己都可以写出来。

也许在5到20年内，我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了......

版权归原作者所有，如有侵权请联系小编删除。

📚往期文章推荐

人工智能名人堂第49期 | 斯坦福研究院名人堂成员：Peter E. Ha

🔗CFP | Virtual Images for Visual Artificial Intelligence

🔗何时机器会掌握常识？Hinton坚持10年内，Lecun说20年

🔗Capsule后最新研究，用软决策树更好理解DNN分类

🔗重磅：第十四批国家千人计划青年项目拟入选名单出炉！

🔗人工智能名人堂第55期 | BP算法之父： Paul J. Werbos

🔗《机器崛起》| 加密数字货币—“密码朋克”的反抗

🔗周末读书｜《里根传》：不会演讲的演员不是好总统

🔗中国工程院院士李正名谏言教育部长：科研评价过于注重论文篇数

🔗他本该获得诺奖，却成了汽车店司机

🔗她是中科院唯一女院士：拒绝参加开国大典，只为做个好医生

德先生公众号｜往期精选

在公众号会话位置回复以下关键词，查看德先生往期文章！

人工智能｜机器崛起｜区块链｜名人堂

虚拟现实｜无人驾驶｜智能制造｜无人机

科研创新｜网络安全｜数据时代｜人机大战

……

更多精彩文章正在赶来，敬请期待！

点击“阅读原文”，移步求知书店，可查阅选购德先生推荐书籍。

登录查看更多

相关内容

AlphaGo Zero

关注 13

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起，在无任何人类输入的条件下，AlphaGo Zero能够迅速自学围棋，并以100:0的战绩击败“前辈”。 2017年10月19日凌晨，在国际学术期刊《自然》（Nature）上发表的一篇研究论文中，谷歌下属公司Deepmind报告新版程序AlphaGo Zero：从空白状态学起，在无任何人类输入的条件下，它能够迅速自学围棋，并以100:0的战绩击败“前辈”。Deepmind的论文一发表，TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

「强化学习之路」清华博士后解读83篇文献，万字长文总结

专知会员服务

67+阅读 · 2020年2月28日

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日