赛尔译文 | 从无到有地学习下围棋

2017 年 12 月 1 日 哈工大SCIR Satinder Singh

出处: Artificial intelligence: Learning to play Go from scratch


原文: https://www.nature.com/articles/550336a


作者: Satinder Singh, Andy Okun & Andrew Jackson


译者: 哈工大SCIR 妥明翔,颜欣,尹庆宇


图1 在2016年3月,人工智能程序AlphaGo战胜世界围棋大赛冠军李世石


人工智能的一个伟大进步

——Satinder Singh

 

当国际象棋输给计算机后,围棋被认为是人类可以长期占据主导地位的棋盘游戏。令人惊讶的是,这一刻竟然来的如此之快:人工智能程序-AlphaGo在2016年就击败了世界围棋大赛冠军李世石(如图1)。AlphaGo是基于一些早期的工作建立的,这对AI来说已是一个卓越的成就,但是它仍有一个至关重要的限制:它的训练过程需要使用专业玩家的游戏数据。Silver等人发布了AlphGo的新版本——AlphaGo Zero,采用一种叫做强化学习的方法,不再需要人类游戏数据的指导。这款人工智能完全战胜了已经战胜人类的AlphaGo,我认为这是迄今为止人工智能在强化学习领域的应用方面取得的最大的进步之一。


AlphaGo Zero是如何工作的?它使用棋盘的当前状态作为人工神经网络的输入。人工神经网络计算每个可能的下一步移动出现的概率,并且估计进行这一步移动的玩家获胜的概率。 人工智能学会通过反复试验(强化学习)最大化获胜的概率,并仅仅通过与自己对局进行训练。


在训练期间,AlphaGo Zero使用了大约0.4秒的思考时间来执行前瞻性搜索,也就是说,它综合了游戏模拟过程和神经网络输出的来决定哪个移动会给它最高的获胜概率。然后,它使用这个信息来更新自己的神经网络。虽然以上只是对Silver和他的同事们的强化学习方法做了简单描述,但相比于AlphaGo所使用的需要多个神经网络和多种训练数据源的方法,这种方法仍能突出的其直观性和直接性。


AlphaGo Zero究竟表现如何?AlphaGo Zero相比于打败李世石的AlphaGo,在大部分相关数据上都提高了一个数量级:训练游戏局数由490万提升到3000万,训练时间由3天提升到数月,具有4个张量处理单元(TPU;用于神经网络训练的专用芯片)的单机器提升到具有48个张量处理单元的多机器组。AlphaGo Zero在这种条件下与AlphaGo作战,获得了100-0的全胜战绩。


那么,这意味着什么? 首先,我们从强化学习的领域来考虑这个问题。 AlphaGo Zero相对于AlphaGo的训练时间和计算复杂度的提高在大约一年内实现了,这是一项重大成就。虽然作者的训练方法是新颖的,但它结合了强化学习的一些基本和类似的方面。 总体来讲,结果表明基于强化学习的人工智能可以比那些依靠人类经验的人工智能表现得更好。实际上,AlphaGo Zero可能会被人类围棋选手用来改善围棋规则,并深入了解围棋本身。


其次,让我们考虑一下媒体对人工智能对抗人类痴迷的结果。 是的,又一项受欢迎而又优雅的游戏败给了电脑;并且,是的,作者的强化学习方法将适用于其他任务。然而,这并未结束,因为像迄今为止所有其他成功的AI一样,AlphaGo Zero在它所能理解的知识以及在与人类甚至其他动物相比的能力方面都非常有限。


(Satinder Singh在美国密歇根州安阿伯密歇根大学计算机科学与工程系48109。 电子邮件:baveja@umich.edu)


与AlphaGo对话

--Andy Okun & Andrew Jackson


国际象棋大师和围棋爱好者爱德华·拉斯克(Edward Lasker)据说曾经说过:“围棋的规则是如此的优雅、有机,并具有严格的逻辑,以至于如果在宇宙的其他地方存在智慧生命的话,他们几乎肯定会玩围棋”。 从某种意义上说,Silver和他的同事的工作证明了拉斯克的假设——这个工作证明了一个非人类智能以一种与人类玩家有点相似的方式来玩围棋。


围棋的规则十分简单,但是出现的复杂性却令人眼花缭乱。人类选手部分通过分析来研究这种复杂性:研究战术,记住已建立的模式,并深入研究下一步。为争夺数百万美元奖金的职业选手,从四岁就开始训练掌握这些技巧。他们的成就是非同寻常的——提前预判一百步,扫一眼就能判断棋面的形式是非常必要的。 但分析只是基础。 围棋选手也必须积累一些经验和智慧、经验法则、谚语、战略概念,甚至是对棋局造型的直觉。简而言之,他们需要判断力和直觉才能发挥出色。


人工智能现在已经达到并超越了最优秀的人类选手的实力。因此,我们就提出了这样的疑问:我们对围棋究竟了解多少。 一个可以改变我们对于围棋概念的传奇围棋大师,可能只会在一个世纪内出现一次。 当AlphaGo击败9段的李世石(9段是围棋的最高水平)后,我们是否会遇到下一个传奇?我们是否将不得不放弃几个世纪的知识和研究?


今年早些时候,一个AlphaGo的升级版本叫做AlphaGo Master的赢得了顶级专业人士60场比赛。这些比赛还在被各地的玩家和爱好者们仔细研究。在人工智能打败当今世界第一棋手实力9段的柯洁之后,AlphaGo Master又自己和自己对弈了50局,这些比赛也正在被挖掘研究以了解人工智能的选择,特别是开局的那几步。


AlphaGo Zero现在将提供下一个丰富的方向。它与AlphaGo Master的比赛肯定会含有丰富的价值,尤其是因为它的胜利似乎毫不费力。在比赛的每一步中,AlphaGo Zero似乎在这里取得了一点优势,在那里又输掉了一些,但是不知怎么的最后它总会略微领先,就像变魔术似的。像AlphaGo Master所进行的人工智能的自我对弈游戏是全面的博弈游戏,因为人们期望两方的判断完全相同:完全相信自己的赌注,双方都不会让出一寸之地。


Silver和同事们的结果表明几个世纪的人类走法并不是完全错误的。AlphaGo Zero已经可以独立地发现、使用甚至有时候超越人类专业棋手所使用的下法。特别是人工智能开局的几步和收关的方法已经和专业棋手的下法无区别了,它按照基本原则,与人类走法基本一致,这说明人类几千年的智慧结晶看起来并非全错。与之相比,AlphaGo Zero中盘的有些走法确实很诡异,让观察的人类棋手感觉到他们看到的是一个强大的人类在对弈,而不是看着一台计算机在计算。


来自这么多国家的棋手们即使不说同样的语言,彼此通过他们的围棋下法技巧来交流。他们分享想法、感受甚至他们在这个棋盘上的价值观,而不仅仅是特定的开局或战术,还有他们是否更喜欢混乱还是秩序的下法、冒险还是确定性的下法、复杂还是简单的下法。人类可以与人工智能进行有意义的对话似乎一直很遥不可及,像是科幻小说。但是对于围棋棋手们来说,这一天已经到来!


(Andy Okun和Andrew Jackson现在在美国围棋协会,美国纽约10163-4688。电子邮件:president@usgo.org;andrew.jackson@usgo.org。

 

 参考文献


1. Campbell, M., Hoane, A. J. Jr, Hsu, F.-H. Artif.Intell. 134,57–83 (2002).

2. Silver, D. et al. Nature 529, 484–489 (2016).

3. Tesauro, G. Commun. ACM 38 (3), 58–68 (1995).

4. Silver, D., Sutton, R. S. & Müller, M. Mach. Learn.87,183–219 (2012).

5. Gelly, S. et al. Commun. ACM 55 (3), 106–113(2012).

6. Silver, D. et al. Nature 550, 354–359 (2017)


本期责任编辑:  张伟男

本期编辑:  刘元兴



“哈工大SCIR”公众号

主编:车万翔

副主编: 张伟男,丁效

责任编辑: 张伟男,丁效,赵森栋,刘一佳

编辑: 李家琦,赵得志,赵怀鹏,吴洋,刘元兴,蔡碧波


长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。

登录查看更多
0

相关内容

AlphaGo 是一款人工智能围棋程序,由被 Google 收购的 DeepMind 公司开发。 2015年10月,AlphaGo v13 在与职业棋手、欧洲冠军 樊麾二段 的五番棋比赛中,以 5:0 获胜。2016年3月9日 - 15日,AlphaGo v18 在与韩国职业棋手 李世石九段 的五番棋比赛中,以 4:1 获胜,赛后,AlphaGo 荣获韩国棋院授予的「第〇〇一号 名誉九段」证书。2016年7月19日,AlphaGo 在 GoRantings 世界围棋排名中超过柯洁,成为世界第一。
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
113+阅读 · 2020年4月23日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
181+阅读 · 2019年12月14日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
26+阅读 · 2019年11月19日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
为你推荐一份深度学习书单,来学习吧~
THU数据派
12+阅读 · 2018年3月13日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
Arxiv
5+阅读 · 2020年3月26日
Arxiv
3+阅读 · 2019年10月31日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
7+阅读 · 2018年9月27日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
6+阅读 · 2018年7月29日
VIP会员
Top
微信扫码咨询专知VIP会员