模仿并超越人类围棋手,KL正则化搜索让AI下棋更像人类,Meta&CMU出品

2021 年 12 月 17 日 量子位
晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI

如果非要问AlphaGo有什么缺点,那就是下棋不像人类。

和AlphaGo对弈过的顶级棋手都有这种感受,他们觉得AI落子经常让人捉摸不透。

这不仅是AlphaGo的问题,许多AI系统无法解释,且难以学习。如果想让AI与人类协作,就不得不解决这个问题。

现在,来自Meta AI等机构的研究者们打造出一个能战胜人类顶级棋手、且更容易复盘棋谱的AI。

他们用人类棋谱训练AI模仿,并让后者超越了人类。

上图分别展示了该方法在国际象棋(左)、围棋(右)的表现。

纵轴为AI与原始模型对弈的胜率,横轴为AI预测人类落子位置的Top-1准确度。可以看出新的算法(绿色)在两方面都已经超过了SOTA结果(蓝色)。

像人类,还能打败人类

正所谓“鱼与熊掌难以兼得”。

AlphaGo使用的自我博弈与蒙特卡洛树搜索(MCTS),虽然练就了无比强大的AI,但它的下棋更像凭直觉,而非策略。

如果要让AI更像人类,更应当使用模仿学习(Imitative learning),但是这却很难让AI达到人类顶级棋手水准。

Meta AI和CMU的研究者发现,加入了KL正则化搜索后,一切都不一样了。AI的落子策略变得与人类棋手更加相似,这就是他们提出的新方法。

在国际象棋、围棋和无合作的博弈游戏中,这种方法在预测人类的准确性上达到了SOTA水平,同时也大大强于模仿学习策略。

作者选择了遗憾最小化算法(regret minimization algorithms)作为模仿学习的算法,但是非正则化遗憾最小化算法在预测人类专家行为方面的准确性较低。

因此作者引入了新的方法,引入了与搜索策略和人类模仿学习的锚策略之间的KL散度成正比的成本项。此算法被称为策略正则化对冲,简称piKL-hedge

piKL-hedge的执行步骤如下:

在下图中,piKL-Hedge(绿色)可以生成预测人类博弈的策略,其准确度与模仿学习(蓝色)相同,同时性能强1.4倍。

另一方面,在实现更高预测准确性的同时,piKL-Hedge优于非正则化搜索(黄色)的策略。

 

作者团队简介

本文共有三位共同一作,分别是来自Meta AI的Athul Paul Jacob、David Wu,以及CMU的Gabriele Farina。

Athul Paul Jacob同时也是MIT CSAIL的二年级博士生,从2016年到2018年,他还在Mila担任访问学生研究员,在Yoshua Bengio手下工作,与Bengio共同发表了多篇论文。

David Wu是Meta AI的国际象棋和围棋首席研究员。

Gabriele Farina是CMU一名六年级博士生,曾是2019-2020年Facebook经济学和计算奖学金的获得者,他的研究方向是人工智能、计算机科学、运筹学和经济学。

另外,Gabriele Farina还参与过著名的CMU德州扑克AI程序Libratus的开发。

论文地址:
https://arxiv.org/abs/2112.07544

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

「智能汽车」交流群招募中!

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群,与行业大咖交流、切磋,不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~


登录查看更多
1

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)
专知会员服务
9+阅读 · 2022年3月4日
专知会员服务
25+阅读 · 2021年6月25日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
【普林斯顿-Mengdi Wang】强化学习统计复杂度,35页ppt
专知会员服务
20+阅读 · 2020年11月15日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
玩桥牌,8位人类世界冠军,都输给了AI
学术头条
0+阅读 · 2022年3月31日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)
专知会员服务
9+阅读 · 2022年3月4日
专知会员服务
25+阅读 · 2021年6月25日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
【普林斯顿-Mengdi Wang】强化学习统计复杂度,35页ppt
专知会员服务
20+阅读 · 2020年11月15日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员