一张图看懂AlphaGo Zero

2017 年 11 月 17 日 AI前线 总有好内容

编辑 | Vincent

编译 | 陈利鑫

AI 前线导语:前不久,谷歌 DeepMind 发布了 AlphaGo 的进阶版本 AlphaGo Zero。后者的表现证明了,在复杂多变的环境下,把没有预先输入的“白板”程序,训练成超人水平是有可能实现的。与此前 100 胜 0 败战绩的 AlphaGo 相比, AlphaGo Zero 使用 4TPUs 替代了 48TPUs,而且需要的神经网络数量也由两条变成一条。那么, AlphaGo Zero 的工作原理是怎样的?其实一张图就可以解释。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)

上图是根据在《自然》上发表的文章绘制,解释了  AlphaGo Zero 是怎样将深度学习和蒙特卡洛树搜索结合,使之具有超强的强化学习算法能力。

简单来说,AlphaGo Zero 的训练可以分为三个同时进行的阶段:自我对战、再训练网络、评估网络。

在自我对战阶段, AlphaGo Zero 创建一个训练集合,自我完成对战 25000 次。棋局每变动一次,博弈、搜索可能性和胜出者的信息将被存储。

训练网络阶段,是神经网络权值得到优化的过程。在一次完整的训练循环中, AlphaGo Zero 将从 50 万局博弈中选取 2048 个移动位置作为样品,并对这些位置的神经网络进行训练。之后,通过损失函数,来对比神经网络预测与搜索可能性和实际胜出方的信息。每完成一千次这样的训练循环,就对神经网络进行一次评估。

在评估网络阶段,测试新的神经网络是否得到优化。在这个过程中,博弈双方都通过各自的神经网络评估叶节点,并使用蒙特卡洛树搜索进行下一步棋路的选择。

这样,在没有任何人类专业知识和数据输入的情况下,AlphaGo Zero 完成了了神经网络的“自学”过程。

AlphaGo 的进阶之路

目前,人类的专业知识资源相对昂贵,可靠性具有不确定性,而且获取难度较大,AI 的目的之一,就包括克服这个难题,发现在无需巨大人力投入前提下,可执行庞大计算的解决方案。

进阶版 AlphaGo Zero 的出世,让人类离这个目标更近了一些。这个版本比 AlphaGo 更加强大,后者在经过人类业余和专业围棋选家数千次对战训练之后,才学会如何玩围棋。而 AlphaGo Zero 直接跳过这些步骤,从随机对战开始,靠自身对战就学会博弈。

AlphaGo Zero 并没有被输入围棋比赛相关知识,仅了解简单的游戏规则,但其在 3 天内即超越曾打败世界围棋冠军李世石的 AlphaGo Lee,21 天超越曾战胜 60 位全球最顶尖专业围棋选手和柯洁的 AlphaGo Master,40 天后超越另一版本的 AlphaGo,成为迄今为止最强大的 AlphaGo。

视频链接:https://v.qq.com/x/page/i05626amo4e.html

与之前版本的 AlphaGo 相比,AlphaGo Zero 性能更优,凭借新型的强化学习方法,AlphaGo Zero 成为自身的“老师”。这个系统通过对围棋游戏一无所知的神经网络,结合强大的搜索算法,自学博弈。在对战过程中,神经网络可以感知并预测对手的下一步动作。

总而言之,AlphaGo Zero 之所以比之前版本更加强大,是因为其不受人类知识的限制,而是能够从世界上最强大的玩家——自身,学习并发明自己的战略。

在 AlphaGo  和 AlphaGo Zero 的数百万次对战中,AlphaGo Zero 不断从博弈中学习,在几天之内就将人类数千年凝聚的智慧学到手。不仅如此,AlphaGo Zero 还发现了新的知识,在对战中创造了自己的策略和创新性的招数。

AlphaGo Zero 的创新性“举动”,一定程度上证明了 AI 可以超越人类的智慧,帮助人类解决困难和挑战,更多 AI 技术如果在蛋白质折叠、减少能源消耗、发现新材料等领域得到突破性的应用,将会对社会产生巨大的积极影响。



登录查看更多
6

相关内容

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起,在无任何人类输入的条件下,AlphaGo Zero能够迅速自学围棋,并以100:0的战绩击败“前辈”。 2017年10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。
【干货书】高级应用深度学习,294页pdf
专知会员服务
151+阅读 · 2020年6月20日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
38+阅读 · 2020年3月9日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
24+阅读 · 2019年11月19日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
入门 | 一文看懂卷积神经网络
机器之心
5+阅读 · 2018年2月20日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
7+阅读 · 2018年8月28日
Arxiv
8+阅读 · 2018年3月17日
VIP会员
相关VIP内容
【干货书】高级应用深度学习,294页pdf
专知会员服务
151+阅读 · 2020年6月20日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
38+阅读 · 2020年3月9日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
24+阅读 · 2019年11月19日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
Top
微信扫码咨询专知VIP会员