DeepMind黄士杰：AlphaGo Zero未达极限

2017 年 11 月 23 日 德先生

DeepMind 资深研究员黄士杰博士

DeepMind资深研究员黄士杰博士（Aja Huang）在首届人工智慧年会上发表以《AlphaGo：深度学习与强化学习的胜利》为题的演讲，黄士杰除了分享自己在人工智慧与围棋上的研究，也分享了关于最近发布的AlphaGo Zero如何不需要人类的知识就能自己学会围棋，并且变得比打败人类棋手的前一代版本更为强大的看法。

从台湾博士生变成被 Google 并购的 DeepMind 员工

黄士杰是台师大资讯工程研究所第一届的学生，从硕士念到博士，在博五的时候结婚，而黄士杰在博士班时所开发的围棋软体叫做 Erica，就是妻子的名字，当时以单机的版本打败人工智慧围棋领域最强、使用了六台机器的Zen，也因此被DeepMind发觉他的能力，David Sliver便力邀黄士杰加入，黄士杰也成了第40号员工。

在面试的时候，David Sliver问黄士杰，开发出Erica 的感觉是什么？黄士杰回答：‘很有成就感，可以自己做出一台AI来。’后来进了DeepMind，发现这其实是公司里面共同的感觉，而DeepMind的梦想就是做出‘通用的强人工智慧’。2014年，DeepMind被Google并购，进到了Google最大的好处就是拥有强大的运算资源。

又回到围棋，AlphaGo 的诞生

不过成为DeepMind的研究员之后，黄士杰并没有马上开发AlphaGo，而是到了2014、2015年的时候才开始重启围棋的人工智慧计画，但也并不是接续博士班时开发的Erica，因为当时已经发现极限了，所以必须藉助深度学习的技术重新打造，并且持续延揽世界上最厉害的人才加入，包括加拿大DNNresearch的 Chris Maddison和Ilya Sutskever，同样也被Google并购，因此就有机会一起合作。

人才、运算资源都齐备，AlphaGo计划也正式开始了。黄士杰分享，第一个突破是运用了神经网路的技术，原本还不确定是否会有效，没想到实验结果出来之后，对弈原始的版本竟然是100%的胜率，也让团队为之振奋。接着而来的第二个突破，则是价值网路的技术，其实当时的模拟，AlphaGo如果上场比赛，胜率应该有七八成，可以算是世界第一了，但是DeepMind的目标远高于此，所以持续扩充团队，才有办法做更多的研究，解决更多的问题。

黄士杰也分享，其实在开发AlphaGo的过程中，每天就是训练神经网路、测试、看胜率、观察看看是不是有效，有很多点子和问题需要不断的测试，像是深度学习的深度到底要几层？用什么架构？训练的资料有没有问题？当然，最终检验的还是AlphaGo的棋力有没有变强。

在观察的过程中，也发现AlphaGo有Overfitting的问题，解决之后AlphaGo就变强了，再跟上一个版本对弈，胜率是95%，这也是为什么演讲题目定为 “AlphaGo的成功是深度学习与强化学习的胜利”。

开始与人类对弈，并发表第一篇 Nature 论文

确认了AlphaGo的能力之后，DeepMind决定与真人对弈，第一个对象是法国的二段棋士樊麾，在2015年10月，AlphaGo五战全胜，第五战Nature期刊的编辑还到场观战，确认AlphaGo即将发表的论文是否真的这么厉害。樊麾也成为第一位正式被AI打败的职业棋士，但落败后，樊麾认为AI的发展对围棋是正面的，所以后来也给AlphaGo团队很多帮助。

不过DeepMind这家公司与其说是‘营利事业’，还不如说是‘研究机构’。好不容易开发出一个可以打败职业棋手的人工智慧，却要发表论文将细节全部公开？而且赢了樊麾之后，正式对九段棋士李世乭宣战，公开岂不是更处于劣势？当时黄士杰其实也不解为何公司如此决定，总觉得应该要花时间在準备比赛而不是写论文。

DeepMind的主张是AlphaGo是一个科学研究，希望能将成果公开在论文上，推动科学领域继续往前进步。

也就因为要发表论文，Nature要求刊登前不能公开打败樊麾的讯息，所以大众是在好几个月之后才知道。

黄士杰也再度提到，DeepMind加入Google之后，Google所提供的运算资源硬体设备帮助相当大，尤其后来TPU取代了GPU更是极大的帮助，不然有很多事情根本做不了。 AlphaGo也算是在Google里面第一个大量使用TPU的程式。关于细节，黄士杰表示在纪录片《AlphaGo》里面都有详细描述。

从败给李世乭找到弱点，再次强化学习能力

韩国之战的结果大家都知道了。打败李世乭之后，AlphaGo是否就该喊停了呢？其实对弈过程中，第四战AlphaGo就出现了明显的问题，竟然出现了连业余选手都不会犯的错，当时负责落子的黄士杰甚至觉得自己来下说不定还比AlphaGo好，李世乭也讶异地看萤幕确认是不是黄士杰放错位置。

既然AlphaGo还有问题，自然就要继续研究下去，全面性的把问题解决掉，这个过程花了八个月，也找来生力军Karen Simonyan加入团队。其实解决的方法就是在深度学习和强化学习的技术上，把学习能力再加强。

第一步，先把原本13 层的网路增加到40层，也改成ResNet，第二步则是把Policy Network和Value Network结合成Dual Network，让AlphaGo的直觉和判断一起训练。第三步，把Training Pipelines也加强。除了人工智慧的学习能力，黄士杰也把模仿棋、循环劫等围棋的问题也解决了，再跟打败李世乭的版本对弈，可以让三子（不贴目）还达到超过50%的胜率。

Master在台南从低调下棋到举世关注

在确定解决了所能找到的所有问题之后，AlphaGo团队决定低调上线找棋士对弈，其实也就是后来的Master版本，而当然不断的赢棋之后，再也无法低调了，最后的结果是对战中、日、韩、台的顶尖棋手，全胜。

AlphaGo自此再也没有输给人类棋士了。

当时，黄士杰回到台湾，在台南自己的房间里面，开了一个新的帐号，邀请棋士对弈，知名棋士还拒绝，不过后来当然就变成是黄士杰拒绝別人了，而且每一盘棋也越来越多人观战。在对战过程中，黄士杰一直观察AlphaGo胜率图表的变化，除了柯洁以外，已经没有人有机会赢AlphaGo了。

经过小蝠的调整和改进，AlphaGo到中国与柯洁对弈。黄士杰也提到了比起在韩国很想要全赢，在中国对弈的气氛是比较轻松的，因为胜负不再是重点（觉得不可能会输了），而是已经是在探索人类与人工智慧之间如何互相合作，所以比赛的名称也叫做‘共创棋妙未来’。黄士杰表示，人工智慧已经不会输给人类，但是这时候人工智慧的功能，是在扩展人类棋手的思路，和人类合作一起探索围棋还未被发掘的领域。

AI 是人类的工具，不是人类的威胁。

AlphaGo团队当时已经兵分两路，黄士杰忙着用Master与柯洁对战，另一组人则开发AlphaGo Zero，而黄士杰先负责把AlphaGo的围棋知识全部拿掉，并且再三确认这件事情，因为AlphaGo Zero是一个完全不需要人类先备知识就能自我学习的人工智慧，所以只能有规则知识，不能有围棋知识。

其实原本AlphaGo团队也不确定能不能成功，不过后来AlphaGo Zero的确也击败了Master，再度证明深度学习与强化学习真的很强大。AlphaGo Zero一开始是彻底乱下，也常常学习之后就卡住了，经过一些调整之后才能再继续，不过有了Google强大的运算资源，以2000 颗TPU的运算，短短经过三天，AlphaGo Zero就成功了。而且不只学习能力，AlphaGo Zero下棋的时候耗电量比起对弈樊麾时的运算，降低很多。现在很多Zero所下的棋，黄士杰也看不懂了。