AlphaGo Zero 没有告诉你的秘密

2017 年 10 月 18 日 待字闺中 陈老师


AlphaGo 确实很厉害,尤其是最新发表的 AlphaGo Zero(点击阅读原文),完全不用人类棋手的棋谱,从零开始学起,大概学习21天就能完胜柯洁,学习40天就能完胜之前的任何AlphaGo版本。



AlphaGo Zero除了使用围棋规则,完全摈弃了人类棋手的知识和棋谱,利用强化学习和深度学习模型,左右手互搏的自学习,获得功力。它高强度的使用了搜索(模拟),蒙特卡罗树搜索(MCTS),但它没有告诉你,这个树搜索实际上是在产生标注数据。


为什么?


因为围棋下到一定程度,最极端的情况是,大家都无子可下的时候,是能通过规则计算胜负的,也就是说,模拟(搜索)到一定程度,就能产生一个输或赢的棋局数据。正是由于这一点,围棋是能够在没有人类棋手的知识(用来减少搜索空间和加速搜索进程)的情况下,使用非监督学习来学习的。机器的计算速度很快,能够在极短的时间内模拟大量的有胜负的棋局,并且从中学习。


很多的游戏也具有类似的能够模拟(搜索)产生最后能用规则判别胜负的样本,所以它们无需人类的知识,确实能从零学习。


但是,像语音识别,图像识别,自然语音理解,等等,领域,就缺乏用简单规则就能判别的样本,它们需要大量的人工标注,然后才能监督或是半监督学习。


就像给你一段不知地球上哪个角落的一句方言说的语音,鬼知道讲的是什么,除了有很多之前专家标注的样本。或是给你一块甲骨文,你能知道写的是什么吗,如果没有很多专家考证研究了多年的结果。


有人可能会质疑,机器翻译,自动问答,不是可以吗?别忘了,这些系统是充分利用了人类有史以来积累的大量的人类翻译的双语语料,或是人类的问答句对。没有它们,这是不可能的任务。


明白了这个可用简单规则判别结果的先决条件,知道AlphaGo Zero 确实算法和工程很牛逼,但是不要被误导了,任何东西(人工智能)都可以无需人类知识或是领域数据就可以从零学习的。然后就觉得人工智能是万能的。


从AlphaGo Zero的论文中,描述的Self-Play和Neural Network Training,我们看到最终状态St是需要根据围棋规则来计算胜者z的,实际上,用模拟(搜索)产生了一个(或是几个)训练样本(棋局)。



AlphaGo Zero中的模特卡罗树搜索(MTCS)。



具体的算法和技术细节,请点击阅读原文。

登录查看更多
1

相关内容

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起,在无任何人类输入的条件下,AlphaGo Zero能够迅速自学围棋,并以100:0的战绩击败“前辈”。 2017年10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
35+阅读 · 2020年2月27日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
深度学习算法与架构回顾
专知会员服务
77+阅读 · 2019年10月20日
瑟瑟发抖……神经网络可能在欺骗你!
专知
5+阅读 · 2018年6月4日
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
【干货】机器学习和深度学习概念入门(下)
机器学习研究会
6+阅读 · 2017年12月31日
一张图看懂AlphaGo Zero
AI前线
5+阅读 · 2017年11月17日
已删除
将门创投
5+阅读 · 2017年10月20日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关VIP内容
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
35+阅读 · 2020年2月27日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
深度学习算法与架构回顾
专知会员服务
77+阅读 · 2019年10月20日
相关论文
Top
微信扫码咨询专知VIP会员