最强AlphaGo Zero缔造者回答网友问题,揭开奇迹背后的迷雾

2017 年 10 月 20 日 DeepTech深科技

(年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情查看“阅读原文”)


昨天 DeepMind 的新“幽灵”AlphaGo Zero 的热度还未散去,今天,DeepMind 团队就又对这一新进展进行了深度解析。DeepMind 首席研究员、“AlphaGo 之父”David Silver 和 AlphaGo Zero 论文的三位作者之一的 Julian Schrittwieser 在 Reddit 上举行一场 AMA——“Ask Me Anything”的活动,回答了网友们提出的关于最新一代的 AlphaGo Zero 的若干问题,可谓是干货满满。

 

图丨Julian Schrittwieser(左)和 David Silver(右)


问:有一点在论文之中并没有被提及,那就是为什么 AlphaGo Zero 的训练如此稳定?行业内的人都了解,深度强化学习极其不稳定、而且总是很容易遗忘,系统的自我训练更是如此,那为什么两者叠加在一起并没出现混乱的状况?

 

David Silver:相比较于策略梯度、Q-learning 之类传统的(无模型)算法,

AlphaGo Zero 采用了一种截然不同的强化深度学习方法,通过使用 AlphaGo search,我们极大地改进了策略和自我训练的结果,然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络(policy+value network)。而这要比渐进的、基于梯度的策略改进(policy improvement)更加稳定,且不会遗忘先前的成果。

 

问:之前的 AlphaGo 使用海量的人类棋手对弈数据来进行训练,但 AlphaGo Zero 却完全是自我学习,那么你觉得数据和算法哪个更重要呢?

 

Julian Schrittwieser:我觉得目前算法仍然比数据更重要,这从 AlphaGo Zero 与之前几个版本的训练效率差距就可以看出,显然 AlphaGo Zero 的算法是最有效率的。不过我认为,未来数据在训练效率上的重要性也会大幅度的提升。

  

问:为什么 DeepMind 和 Facebook 同时开始围棋人工智能的研究,但却是你们(DeepMind)率先达到了大师级别的水平?获胜的因素是什么?

 

David Silver:Facebook 更专注于监督学习,而我们更多地关注强化学习,因为我们认为这最终能超越人类的知识。研究也表明,使用监督学习不过只能带来出乎人意料的表现而已,但如果要远超人类水平,强化学习才是关键。

 

问:你们认为围棋与星际争霸 2 游戏哪个难度更大?面临的最大潜在技术障碍和区别是什么?

 

Julian Schrittwieser:距离我们宣布开放星际争霸 2 的环境也才刚过去几周而已,所以现在还处于早期阶段。星际争霸 2 游戏中的活动空间确实要远大于围棋,所以更具挑战性。我认为两者最大的区别在于围棋是一种完全信息博弈,而星际争霸因为有战争迷雾,属于不完全信息博弈。

  

问:AlphaGo Zero 是 AlphaGo 的最终迭代版本吗?还会有下一步的更新吗?

 

David Silver:我们已经不再主动研究如何让 AlphaGo 变得更加强大,但仍保留了研究试验台,以供 DeepMind 人员验证新的思路和算法。

 

问:AlphaGo 有无开源的计划?

 

David Silver:我们在过去已经开源了大量的代码,但推进的并不顺利,而 AlphaGo 项目的代码库更加复杂,处理起来会更加棘手。

  

此外,一位网友还问到,去读一个硕士或博士学位对于在人工智能领域里取得成功是必要的吗?Julian Schrittwieser 回答道,“并非绝对”,他举了自己只有计算机学士学位的例子。还说 AI 领域发展非常迅速,你能从读论文、做实验中学到很多东西。而进入一家在机器学习领域有行业经验的公司也是另一种取得进步的途径。

 

-End-



登录查看更多
1

相关内容

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起,在无任何人类输入的条件下,AlphaGo Zero能够迅速自学围棋,并以100:0的战绩击败“前辈”。 2017年10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。
多智能体深度强化学习的若干关键科学问题
专知会员服务
186+阅读 · 2020年5月24日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
编程和数学基础不佳如何入门人工智能?
大数据技术
6+阅读 · 2018年1月3日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
最可怕的不是被机器淘汰,而是……
全球创新论坛
18+阅读 · 2017年10月28日
已删除
将门创投
5+阅读 · 2017年10月20日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
Arxiv
14+阅读 · 2020年1月27日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
SepNE: Bringing Separability to Network Embedding
Arxiv
3+阅读 · 2019年2月26日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年6月14日
VIP会员
相关资讯
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
编程和数学基础不佳如何入门人工智能?
大数据技术
6+阅读 · 2018年1月3日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
最可怕的不是被机器淘汰,而是……
全球创新论坛
18+阅读 · 2017年10月28日
已删除
将门创投
5+阅读 · 2017年10月20日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
相关论文
Top
微信扫码咨询专知VIP会员