机器之心专访腾讯「绝艺」团队负责人：用全新强化学习方法造就更强模型

2017 年 3 月 23 日 机器之心

机器之心原创

作者：李泽南、吴攀

3 月 19 日，在全部由人工智能参加的 UEC 杯世界围棋大赛中，绝艺战胜了所有对手。据介绍，在本次比赛结束后，腾讯 AI Lab 将公开「绝艺」技术细节，助推围棋 AI 发展。机器之心第一时间专访了腾讯 AI Lab 高级总监、「绝艺」团队负责人刘永升，他向我们揭示了「绝艺」背后的秘密。

3 月 19 日下午，第 10 届 UEC 杯计算机围棋大赛在东京落幕，腾讯 AI Lab（腾讯人工智能实验室）研发的围棋人工智能程序「绝艺」（Fine Art）首次参加比赛便一路过关斩将，继 18 日的积分赛七连胜进入 16 强后，在 19 日的淘汰赛中又以四连胜的战绩夺得了本届 UEC 杯冠军。在决赛中，绝艺执白面对来自日本的人工智能「DeepZenGo」，用时 29 分钟，196 手中盘战胜对手。据腾讯介绍，今年 3 月 26 日，「绝艺」还将在东京与日本先锋棋手一力辽在「电圣战」中进行人机对弈。

「绝艺」在第十届 UEC 杯决赛中对阵 DeepZenGo 的棋谱

UEC 杯计算机围棋锦标赛 2007 年始于日本，由日本电气通信大学举办，是最具传统和权威的计算机围棋大赛，每年邀请各国高水平 AI 齐聚东京比赛，促进相关学术及科技的交流。日本的 DeepZenGo（3 次）、法国的 Crazy Stone（4 次）等世界著名人工智能围棋程序曾先后在 UEC 杯折桂。此外，Facebook 的 Dark Forest 曾于 2016 年的第九届闯入了决赛。今年的比赛吸引了 30 支队伍参赛，由于腾讯绝艺的参赛而格外引人注目。本次大赛还请到曾获日本围棋四大家之首「本因坊」头衔的王铭琬九段进行现场解说，也体现了日本棋院方面对于此次赛事的重视。

据称，本次 UEC 也邀请了 DeepMind 的 AlphaGo，但后者选择不参赛。不过这并不意味着谷歌旗下的团队停止了 AlphaGo 的开发，它将于 4 月与中国顶尖棋手柯杰进行人机对战。

决赛阶段十六个人工智能的胜负记录

「很高兴『绝艺』能够在 UEC 杯夺冠，这是非常难得的宝贵经验。『绝艺』不同于其他实验室 AI，它得益于世界超一流棋手的指导，通过不断与高手交流及学习，一步步成长起来。我们希望，通过『绝艺』能够让更多人关注、喜爱进而传承围棋这一传统文化。」腾讯公司副总裁、腾讯 AI Lab 负责人姚星在赛后表示，「『绝艺』在研究价值上也不止于围棋 AI 本身，我们在深度学习和强化学习上进行了非常有价值的探索与创新，之后将通过论文公开这些技术创新和数据库的细节，为推动围棋 AI 的技术进步出一份力。腾讯 AI Lab 的发展愿景是，让 AI 未来无处不在，因此我们将以开放合作的态度，与业界一起共同推进全球 AI 技术的发展。」

「绝艺」曾先后使用多个 ID，在腾讯围棋（野狐围棋）平台与业余和职业高手切磋，多次战胜中日韩三国一众顶尖棋手，成为腾讯围棋首个晋级「十段」的棋手。截至 3 月 9 日，「绝艺」对局数量达 534 盘，战绩是 406 胜 128 负，胜率 76%，与柯洁、古力、常昊、范蕴若、范廷钰、朴廷桓等超过 100 位知名人类棋手有过交锋。

与此前多次击败人类世界冠军的 AlphaGo 类似，「绝艺」的训练主要包括人类棋谱数据库和机器自对弈，它的算法基于策略网络与价值网络两大核心，并创新性地大幅提升了价值网络的精度，使其大局观表现更好。通俗的说，「策略」指每一步博弈时，各种选择的取舍，选好棋弃差棋，这是偏微观评估；而「价值」则指能看懂棋局，判断目前棋局的胜率，这是偏宏观的评估。

一年前，绝艺还只是一个存在于团队头脑中的想法。2016 年 1 月 28 日，腾讯 AI Lab 高级总监、专家工程师刘永升在内部 IM 上收到一条来自腾讯副总裁姚星的消息：有没有信心做围棋 AI，如果围棋不行，先做象棋 AI 也行。彼时刘永升对围棋人工智能还没有太清晰的概念，于是答复姚星好好调研。在当年春节假期，刘永升找了一些围棋的书籍、论文阅读，对围棋 AI 有了基本了解。春节回来后，2 月 17 日，姚星问围棋 AI 有没有在做，刘回答：还在调研，并承诺一个月后出 DEMO。

2016 年 3 月 4 日，第一个 DEMO 完成，棋力在业余 5 级左右，到 3 月下旬，围棋 AI 正式立项，项目名称 weigo，团队也随之搭建起来。到 2016 年 6 月下旬，绝艺棋力突破业务 6 段，意即突破业余高手水平，这是绝艺的一个重要发展节点。

2016 年 8 月，绝艺以「虎虎有生气」的 ID 首次在野狐围棋（腾讯旗下围棋对弈平台）下棋，8 月 23 日首次战胜职业棋手，9 月 4 日，绝艺以「野狐扫地僧」ID 连赢 ID 为 tby 的网友 8 局，tby 是聂卫平长子孔令文的账号。在不断的学习中，绝艺的能力不断增强。

2016 年 11 月 1 日，绝艺正式以「绝艺」ID 亮相野狐，11 月 2 日第一次战胜世界冠军江维杰（ID 若水云寒）。11 月 19 日晚，「绝艺」首次和柯洁交手，一胜一负；11 月 28 日，「绝艺」对韩国第一人朴廷桓 5 胜 1 负。2017 年 2 月 14 日以后，绝艺对野狐帽子棋手（世界冠军和全国冠军）的胜率，已经能够稳定在 90% 以上。

自 2016 年 8 月起，绝艺一直在腾讯野狐围棋上与人类棋手进行比赛，随着系统的不断改进，它的成绩也越来越好。在今年初，「绝艺」接连战胜几名中日韩九段职业棋手，终于在今年 3 月 3 日晋级成为「10 段选手」，这是野狐围棋平台上第一位达成「10 段」称号的「棋手」。

腾讯的人工智能为何能够这么快战胜世界冠军级棋手，获得世界比赛冠军？作为「绝艺」的开发者，腾讯 AI Lab 的研究方向都有哪些？在 UEC 杯夺冠后，机器之心采访了腾讯 AI Lab 高级总监，「绝艺」团队负责人刘永升，让我们看看「绝艺」背后的秘密。

有关本次比赛

机器之心：时间拨回到比赛之前，你们有讨论过可能出现的赛事结果吗？或者说当时有夺冠的信心么？

刘永升：UEC 杯本来就是个学术和技术交流的平台，有世界各国一流围棋 AI 强手，我们是抱着和优秀同行进行学术切磋交流的心态来的，获胜了一方面很激动，一方面觉得也是很幸运。

机器之心：回忆起比赛的情形，有哪些印象深刻的片段？技术难点主要有哪些？

刘永升：（决赛）下到中盘一度非常紧张，能明显感觉到 DeepZenGo 的棋力和循环赛相比又有提升，是一位非常值得尊敬的对手，绝艺表现很出色。

机器之心：能否评价一下本次比赛的对手（特别是 DeepZenGo 与 CrazyStone）？

刘永升：过去几年，它们一直是围棋 AI 的王者，为围棋 AI 的发展做出了很大的贡献。过去一年，它们都成功把神经网络新技术应用到原来的系统中，大幅度提高了棋力，特别是 DeepZenGo，对职业棋手已经有非常高的胜率。职业棋手对其评价是非常不错的。

两天的比赛中我们绝艺和 DeepZenGo 交手两次，每次都非常胶着，前面 100 手都是难分难解。绝艺的中后盘相对而言会有一定优势，所以两次都笑到了最后。

机器之心：据了解，腾讯 AI Lab 的 13 人团队花近一年时间研发打造了绝艺，开发团队成员的背景是怎样的？有围棋高手吗？

刘永升：绝艺团队有 13 人，一半人做算法研究，一半人做算法实现。所有成员全部隶属腾讯 AI Lab，Lab 于 2016 年成立，专注与 AI 领域的基础科学研究和应用探索，目前有 50 余位世界知名学院的 AI 科学家（90% 为博士）、及 200 多位经验丰富的工程师。

负责「绝艺」的团队里，有喜欢围棋的，也有一开始对围棋一无所知。但指导团队的人里有一些高手，AI Lab 负责人姚星先生是业余 2-3 段，AI Lab 所属的 TEG 事业群总裁卢山先生是业余 5 段，我们还特别邀请了职业九段的罗冼河先生作为「绝艺」的专业陪练。更不用说，腾讯围棋上众多高手，可以毫不夸张，「绝艺」就是一个跟着棋手一起成长的围棋 AI。

「绝艺」背后的技术

机器之心：我们知道，在强化学习中，最优策略和最优价值函数都是全局最优解，而不是局部最优解。最优策略是在决定下一步应该下什么棋，后面会保证赢面最大。腾讯报道绝艺的新闻中出现的「微观」和「宏观」怎么解读？

刘永升：通俗的说，「策略」指每一步博弈时，各种选择的取舍，选好棋弃差棋，这是偏微观评估，也就是每一步的判断；而「价值」则指能看懂棋局，判断给定棋局是不是能赢，这是偏宏观的评估，也就是围棋里的大局观。

机器之心：Monte Carlo 搜索树是 AlphaGo 中的一项关键技术。绝艺中用到了吗？

刘永升：用到了。

机器之心：腾讯的另一篇报导中也提到「在绝艺的成长过程中，与人类棋手对弈是绝艺强大起来的重要原因，绝艺的突破性进展总是伴随其战胜某一实力水平的棋手出现。」我们知道，在 AlphaGo 中，人类棋手的棋谱帮助学习了快速走子策略（Rollout policy）和监督学习策略（SL policy）；后者做为学习强化学习策略（RL policy）这个非凸优化问题的初始值。初始值的设定可以帮助更快地学习到更好的策略；但是初始值并不决定最终学习到的策略的质量。绝艺的进步「得益于世界超一流棋手的指导」，这样的说法，请解释一下。

刘永升：绝艺研发过程中，如何评估棋力以及存在哪些问题是非常困难的。并且随着绝艺棋力提升，普通的棋手基本无法战胜的时候更难暴露其不足。所以，绝艺的研发过程中得益于世界超一流棋手的指导，非常难能可贵，对研发进度有非常大的帮助。

机器之心：AlphaGo 训练过程基本可以看成在解一个优化问题，自动完成，没有人工干预。腾讯关于绝艺的新闻，在强调世界超一流棋手的重要性；超一流棋手如何与优化问题结合？还是绝艺中有人工设计的规则？

刘永升：手工干预是过去式，绝艺是完全端到端的决策过程。世界超一流的棋手，主要是分析 AI 的棋局，得出当前存在的问题，从而分析系统深层的原因，最终确定修复点。

机器之心：绝艺这套系统设计思路是怎样的？相比去年 3 月战胜围棋大师李世石的 AlphaGo（AlphaGo 也是用的策略网络与价值网络），绝艺实现了哪些突破？

刘永升：「绝艺」的学习主要包括人类棋谱数据库和机器自对弈，它的算法基于策略网络与价值网络两大核心，并创新性地大幅提升了价值网络的精度，使其大局观表现更好。

关于绝艺的技术和数据库细节，我们将通过论文进一步公布，希望通过开放合作的研究，希望帮助和启发更多研究者，推动围棋 AI 发展。敬请期待。

「绝艺」背后，是深度学习和强化学习这两个机器学习十分热门的研究领域，它的总体框架遵循 AlphaGo 去年 1 月在《Nature》上发表的文章，是一个纯机器学习系统，但在实践中做了超出论文的创新。

举例来说，现代强化学习的核心，是用先进的机器学习算法作模拟器，生成高质量、实际有效的数据（experience replay）－这个过程在围棋 AI 中被称为自对弈。通过这个方法，可以让得学习到的模型不断通过强化生成的数据来自我提高。

在训练「绝艺」的机器学习模型过程中，我们探索了一些全新、而且非常有效的强化学习方法，能创造出更优质的自我模拟数据，从而导致了更强的模型。比如，和很多其他围棋 AI 相比，绝艺的对杀能力会更强。AI Lab 构造「绝艺」的经验，积累了一系列有效的方法，可以通过自我学习产生高质量的强化学习数据。这些方法可以应用在很多别的场景之中。

至于大家很关心的硬件系统，「绝艺」的线上系统有单机版和多机版：单机版测试过，差距和多机版没有大家想的那样大。而多机版所用的机器资源比 DeepMind 公开数据所透露的要少，所以绝艺不用靠资源取胜。

此外，在训练中绝艺利用了腾讯的云计算资源生成高质量数据，这些计算资源在行业内都可以通过腾讯云对外服务直接获取。

未来的研究方向

机器之心：腾讯在围棋人工智能技术上的研究（或者说强化学习技术）可以被借鉴到哪些实际生活的应用中？可以举例说明一下吗？

刘永升：从应用价值上，短期看，腾讯围棋是本身国内最大、最活跃的的围棋平台之一，做得好，可能马上就会有很多人能用上。中期看，AI Lab 关注四大应用方向：内容 AI、游戏 AI、社交 AI 和平台工具型 AI。围棋 AI 就和其中的游戏 AI 密不可分，是腾讯独有且颇有创新潜能的应用场景。长期来看，「绝艺」背后「精准决策」的 AI 能力，也能在无人驾驶、量化金融、辅助医疗等地方应用。如果从围棋 AI 的完美对称博弈系统，进化到不完美对称博弈系统，也就是能处理现实中更常见的不确定性问题时，这里的想象空间非常巨大，当然也是比较长远的应用了。

在我畅想一下未来的时候，我觉得 AI 未来不仅仅是一款成熟的产品，而是真正的深入到所有的大众的心里面去，就是每个人都会让有 AI 在帮助到他。

机器之心：一直以来围棋都被认为完美信息博弈领域的圣杯，在去年的人机大战之后，人们的关注重点也渐渐转移到了不完美信息博弈上。德州扑克方面的博弈已经取得了很大的进展——AI 在一对一无限制比赛上已经战胜了人类，DeepMind 则又开始了《星际争霸 2》的研究。腾讯 AI Lab 目前有在不完美信息博弈方面的研究工作吗？请给我们介绍一下目前的进展。

刘永升：游戏 AI 领域，我们确实在从事一些很有意思的相关研究，但具体细节要之后才能公布。

机器之心：除此之外，AI Lab 还在进行哪些方面的研究？

刘永升：AI Lab 的研究主要基于四个垂直领域，计算机视觉（Computer Vision）、语音识别（Speech Recognition）、自然语言处理（Natural Language Processing）和机器学习（Machine Learning），基本上涵盖了当今 AI 最前沿的方方面面。每个领域代表一个基础研究方向，又都能进行深层次的研究拓展。

比如在计算机视觉领域，除了传统的图像处理，还有增强现实（AR）的研究拓展，也会引入空间定位（Simultaneous Localization and Mapping）技术；在语音识别领域，除了传统语音识别、语音合成以外，还会引入自动翻译（Translation）；在自然语言处理，除了传统的对人认知行为的研究，还会研究聊天机器；在机器学习领域，从监督类到无监督的机器学习，再到强化学习的机器学习都有。

从腾讯业务出发，AI Lab 还提出四大专属研究方向：内容 AI（Content AI）、社交 AI（Social AI）、游戏 AI（Game AI）和平台工具 AI（Cloud AI）。

内容 AI，是基于内容类的推荐和搜索类的应用；社交 AI，作为一个社交基因很强的公司，QQ 、QQ 空间和微信都是社交平台，所以会基于社交研发相关 AI，如社交中的对话、聊天机器人、智能助手等。和全世界其他公司不太一样的方向是游戏 AI。游戏是腾讯一块很大的业务，在游戏里引入 AI 能力的想像空间非常大，未来是不是能看到 AI 参加 LOL 世界电竞大赛，提升整个游戏可玩性和趣味性呢？最后是平台工具类 AI，未来希望能开放这些能力，如基于图像的人脸识别、语音识别、自然语言处理中的舆情分析处理，及深度学习平台等能力。

机器之心：有人说人工智能将围棋提升到了一个新的境界或者说开启了全新的思路，腾讯的野狐平台甚至也可能为此增设了「十段」的水平，实际上绝艺也是第一个获此段位的棋手。您认为人工智能的发展是否将给人类的传统带来新的启迪？

刘永升：只从围棋看，绝艺的大局观以及对一些定式的变换，可能会给人类棋手不少启发。

我们希望绝艺能代表一种科技的责任感——围棋 AI 能积极与人类棋手互动，激发更多人关注并传承围棋文化。腾讯 AI Lab 的愿景是「Make AI everywhere」，就是说「让 AI 未来无处不在」。让科技能够「赋能于人」，让我们的生活更美好。

机器之心：绝艺即将在 3 月 26 日举行的「电圣战」人机大战（对阵日本棋手一力辽七段）出场，您认为这次绝艺的胜算有多少？

刘永升：我们有一定信心，但还是以交流和切磋为主要目的。

但是围棋的价值取向很多元。除了胜负，还有文化、艺术、娱乐。绝艺赢得比赛，不是 AI 击败人类，也不是科学击败围棋，这里没有赢家或输家，是多赢的。