DeepMind黄士杰:AlphaGo Zero未达极限

2017 年 11 月 23 日 德先生


DeepMind 资深研究员黄士杰博士

DeepMind资深研究员黄士杰博士(Aja Huang)在首届人工智慧年会上发表以《AlphaGo:深度学习与强化学习的胜利》为题的演讲,士杰除了分享自己在人工智慧与围棋上的研究,也分享了关于最近发布的AlphaGo Zero如何不需要人类的知识就能自己学会围棋,并且变得比打败人类棋手的前一代版本更为强大的看法。

  

从台湾博士生变成被 Google 并购的 DeepMind 员工

  

黄士杰是台师大资讯工程研究所第一届的学生,从硕士念到博士,在博五的时候结婚,而黄士杰在博士班时所开发的围棋软体叫做 Erica,就是妻子的名字,当时以单机的版本打败人工智慧围棋领域最强、使用了六台机器的Zen,也因此被DeepMind发觉他的能力,David Sliver便力邀黄士杰加入,黄士杰也成了第40号员工。

  

在面试的时候,David Sliver问黄士杰,开发出Erica 的感觉是什么?黄士杰回答:‘很有成就感,可以自己做出一台AI来。’后来进了DeepMind,发现这其实是公司里面共同的感觉,而DeepMind的梦想就是做出‘通用的强人工智慧’。2014年,DeepMind被Google并购,进到了Google最大的好处就是拥有强大的运算资源。

  

又回到围棋,AlphaGo 的诞生

  

不过成为DeepMind的研究员之后,黄士杰并没有马上开发AlphaGo,而是到了2014、2015年的时候才开始重启围棋的人工智慧计画,但也并不是接续博士班时开发的Erica,因为当时已经发现极限了,所以必须藉助深度学习的技术重新打造,并且持续延揽世界上最厉害的人才加入,包括加拿大DNNresearch的 Chris Maddison和Ilya Sutskever,同样也被Google并购,因此就有机会一起合作。

  

人才、运算资源都齐备,AlphaGo计划也正式开始了。黄士杰分享,第一个突破是运用了神经网路的技术,原本还不确定是否会有效,没想到实验结果出来之后,对弈原始的版本竟然是100%的胜率,也让团队为之振奋。接着而来的第二个突破,则是价值网路的技术,其实当时的模拟,AlphaGo如果上场比赛,胜率应该有七八成,可以算是世界第一了,但是DeepMind的目标远高于此,所以持续扩充团队,才有办法做更多的研究,解决更多的问题。

  

黄士杰也分享,其实在开发AlphaGo的过程中,每天就是训练神经网路、测试、看胜率、观察看看是不是有效,有很多点子和问题需要不断的测试,像是深度学习的深度到底要几层?用什么架构?训练的资料有没有问题?当然,最终检验的还是AlphaGo的棋力有没有变强。

  

在观察的过程中,也发现AlphaGo有Overfitting的问题,解决之后AlphaGo就变强了,再跟上一个版本对弈,胜率是95%,这也是为什么演讲题目定为 “AlphaGo的成功是深度学习与强化学习的胜利”。

  

开始与人类对弈,并发表第一篇 Nature 论文

  

确认了AlphaGo的能力之后,DeepMind决定与真人对弈,第一个对象是法国的二段棋士樊麾,在2015年10月,AlphaGo五战全胜,第五战Nature期刊的编辑还到场观战,确认AlphaGo即将发表的论文是否真的这么厉害。樊麾也成为第一位正式被AI打败的职业棋士,但落败后,樊麾认为AI的发展对围棋是正面的,所以后来也给AlphaGo团队很多帮助。

  

不过DeepMind这家公司与其说是‘营利事业’,还不如说是‘研究机构’。好不容易开发出一个可以打败职业棋手的人工智慧,却要发表论文将细节全部公开?而且赢了樊麾之后,正式对九段棋士李世乭宣战,公开岂不是更处于劣势?当时黄士杰其实也不解为何公司如此决定,总觉得应该要花时间在準备比赛而不是写论文。

  

DeepMind的主张是AlphaGo是一个科学研究,希望能将成果公开在论文上,推动科学领域继续往前进步。

  

也就因为要发表论文,Nature要求刊登前不能公开打败樊麾的讯息,所以大众是在好几个月之后才知道。

  

黄士杰也再度提到,DeepMind加入Google之后,Google所提供的运算资源硬体设备帮助相当大,尤其后来TPU取代了GPU更是极大的帮助,不然有很多事情根本做不了。 AlphaGo也算是在Google里面第一个大量使用TPU的程式。关于细节,黄士杰表示在纪录片《AlphaGo》里面都有详细描述。


  

从败给李世乭找到弱点,再次强化学习能力

  

韩国之战的结果大家都知道了。打败李世乭之后,AlphaGo是否就该喊停了呢?其实对弈过程中,第四战AlphaGo就出现了明显的问题,竟然出现了连业余选手都不会犯的错,当时负责落子的黄士杰甚至觉得自己来下说不定还比AlphaGo好,李世乭也讶异地看萤幕确认是不是黄士杰放错位置。

  

既然AlphaGo还有问题,自然就要继续研究下去,全面性的把问题解决掉,这个过程花了八个月,也找来生力军Karen Simonyan加入团队。其实解决的方法就是在深度学习和强化学习的技术上,把学习能力再加强。

  

第一步,先把原本13 层的网路增加到40层,也改成ResNet,第二步则是把Policy Network和Value Network结合成Dual Network,让AlphaGo的直觉和判断一起训练。第三步,把Training Pipelines也加强。除了人工智慧的学习能力,黄士杰也把模仿棋、循环劫等围棋的问题也解决了,再跟打败李世乭的版本对弈,可以让三子(不贴目)还达到超过50%的胜率。

  

Master在台南从低调下棋到举世关注

  

在确定解决了所能找到的所有问题之后,AlphaGo团队决定低调上线找棋士对弈,其实也就是后来的Master版本,而当然不断的赢棋之后,再也无法低调了,最后的结果是对战中、日、韩、台的顶尖棋手,全胜。

  

AlphaGo自此再也没有输给人类棋士了。

  

当时,黄士杰回到台湾,在台南自己的房间里面,开了一个新的帐号,邀请棋士对弈,知名棋士还拒绝,不过后来当然就变成是黄士杰拒绝別人了,而且每一盘棋也越来越多人观战。在对战过程中,黄士杰一直观察AlphaGo胜率图表的变化,除了柯洁以外,已经没有人有机会赢AlphaGo了。

  

经过小蝠的调整和改进,AlphaGo到中国与柯洁对弈。黄士杰也提到了比起在韩国很想要全赢,在中国对弈的气氛是比较轻松的,因为胜负不再是重点(觉得不可能会输了),而是已经是在探索人类与人工智慧之间如何互相合作,所以比赛的名称也叫做‘共创棋妙未来’。黄士杰表示,人工智慧已经不会输给人类,但是这时候人工智慧的功能,是在扩展人类棋手的思路,和人类合作一起探索围棋还未被发掘的领域。

  


AI 是人类的工具,不是人类的威胁。


AlphaGo团队当时已经兵分两路,黄士杰忙着用Master与柯洁对战,另一组人则开发AlphaGo Zero,而黄士杰先负责把AlphaGo的围棋知识全部拿掉,并且再三确认这件事情,因为AlphaGo Zero是一个完全不需要人类先备知识就能自我学习的人工智慧,所以只能有规则知识,不能有围棋知识。

  

其实原本AlphaGo团队也不确定能不能成功,不过后来AlphaGo Zero的确也击败了Master,再度证明深度学习与强化学习真的很强大。AlphaGo Zero一开始是彻底乱下,也常常学习之后就卡住了,经过一些调整之后才能再继续,不过有了Google强大的运算资源,以2000 颗TPU的运算,短短经过三天,AlphaGo Zero就成功了。而且不只学习能力,AlphaGo Zero下棋的时候耗电量比起对弈樊麾时的运算,降低很多。现在很多Zero所下的棋,黄士杰也看不懂了。





来源:DeepTech深科技  作者: 詹子娴

版权归原作者所有,如有侵权请联系小编删除。


📚往期文章推荐

人工智能名人堂第49期 | 斯坦福研究院名人堂成员:Peter E. Ha

🔗吴恩达最新问答:深度学习泡沫何时会破?

🔗中科院院士梅宏:软件定义的未来:万物皆可互联,一切均可编程

🔗中国工程程院院士高文:从大数据科学到人工智能的迁移过程

🔗中国工程院院士李国杰:人工智能的三大悖论

🔗人工智能名人堂第53期 | 万维网之父:蒂姆·伯纳斯·李

🔗《机器崛起》| 赛博空间:高科技对现实的思考与映射

🔗周末读书 |《创造自然》:亚历山大·冯·洪堡的科学发现之旅

🔗人工智能名人堂第52期 | SHRDLU系统之父:Terry Winograd

🔗腾讯500页新书《人工智能:国家人工战略行动抓手》讲了啥?

🔗《机器崛起》|从热映的《银翼杀手》追溯赛博朋克之文化起源


德先生公众号 | 往期精选


在公众号会话位置回复以下关键词,查看德先生往期文章!


人工智能|机器崛起|区块链|名人堂

虚拟现实|无人驾驶|智能制造|无人机

科研创新|网络安全|数据时代|人机大战

……

更多精彩文章正在赶来,敬请期待!


点击“阅读原文”,移步求知书店,可查阅选购德先生推荐书籍。

登录查看更多
1

相关内容

就职于 Google DeepMind,AlphaGo 的主要设计者之一。围棋台湾业余6段。
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
已删除
将门创投
5+阅读 · 2017年10月20日
AliCoCo: Alibaba E-commerce Cognitive Concept Net
Arxiv
13+阅读 · 2020年3月30日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
Top
微信扫码咨询专知VIP会员