模仿并超越人类围棋手，KL正则化搜索让AI下棋更像人类，Meta&CMU出品

会员服务 ·

模仿并超越人类围棋手，KL正则化搜索让AI下棋更像人类，Meta&CMU出品

2021 年 12 月 17 日 量子位

晓查发自凹非寺
量子位报道 | 公众号 QbitAI

如果非要问AlphaGo有什么缺点，那就是下棋不像人类。

和AlphaGo对弈过的顶级棋手都有这种感受，他们觉得AI落子经常让人捉摸不透。

这不仅是AlphaGo的问题，许多AI系统无法解释，且难以学习。如果想让AI与人类协作，就不得不解决这个问题。

现在，来自Meta AI等机构的研究者们打造出一个能战胜人类顶级棋手、且更容易复盘棋谱的AI。

他们用人类棋谱训练AI模仿，并让后者超越了人类。

上图分别展示了该方法在国际象棋（左）、围棋（右）的表现。

纵轴为AI与原始模型对弈的胜率，横轴为AI预测人类落子位置的Top-1准确度。可以看出新的算法（绿色）在两方面都已经超过了SOTA结果（蓝色）。

像人类，还能打败人类

正所谓“鱼与熊掌难以兼得”。

AlphaGo使用的自我博弈与蒙特卡洛树搜索（MCTS），虽然练就了无比强大的AI，但它的下棋更像凭直觉，而非策略。

如果要让AI更像人类，更应当使用模仿学习（Imitative learning），但是这却很难让AI达到人类顶级棋手水准。

Meta AI和CMU的研究者发现，加入了KL正则化搜索后，一切都不一样了。AI的落子策略变得与人类棋手更加相似，这就是他们提出的新方法。

在国际象棋、围棋和无合作的博弈游戏中，这种方法在预测人类的准确性上达到了SOTA水平，同时也大大强于模仿学习策略。

作者选择了遗憾最小化算法（regret minimization algorithms）作为模仿学习的算法，但是非正则化遗憾最小化算法在预测人类专家行为方面的准确性较低。

因此作者引入了新的方法，引入了与搜索策略和人类模仿学习的锚策略之间的KL散度成正比的成本项。此算法被称为策略正则化对冲，简称piKL-hedge。

piKL-hedge的执行步骤如下：

在下图中，piKL-Hedge（绿色）可以生成预测人类博弈的策略，其准确度与模仿学习（蓝色）相同，同时性能强1.4倍。

另一方面，在实现更高预测准确性的同时，piKL-Hedge优于非正则化搜索（黄色）的策略。

作者团队简介

本文共有三位共同一作，分别是来自Meta AI的Athul Paul Jacob、David Wu，以及CMU的Gabriele Farina。

Athul Paul Jacob同时也是MIT CSAIL的二年级博士生，从2016年到2018年，他还在Mila担任访问学生研究员，在Yoshua Bengio手下工作，与Bengio共同发表了多篇论文。

David Wu是Meta AI的国际象棋和围棋首席研究员。

Gabriele Farina是CMU一名六年级博士生，曾是2019-2020年Facebook经济学和计算奖学金的获得者，他的研究方向是人工智能、计算机科学、运筹学和经济学。

另外，Gabriele Farina还参与过著名的CMU德州扑克AI程序Libratus的开发。

论文地址：
https://arxiv.org/abs/2112.07544

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

正则化

关注 9

在数学，统计学和计算机科学中，尤其是在机器学习和逆问题中，正则化是添加信息以解决不适定问题或防止过度拟合的过程。正则化适用于不适定的优化问题中的目标函数。

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)

专知会员服务

10+阅读 · 2022年3月4日

【ICML2021】DouZero: 首个达到人类水平的开源斗地主AI

专知会员服务

26+阅读 · 2021年6月25日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】来自观察的跨域模仿

专知会员服务

18+阅读 · 2021年5月25日

【普林斯顿-Mengdi Wang】强化学习统计复杂度，35页ppt

专知会员服务

21+阅读 · 2020年11月15日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

93+阅读 · 2020年9月28日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

66+阅读 · 2020年8月22日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

玩桥牌，8位人类世界冠军，都输给了AI

学术头条

0+阅读 · 2022年3月31日

AI「赌王」问世！桥牌胜率83%，吊打8位人类冠军，但不会叫牌

新智元

0+阅读 · 2022年3月30日

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于给教明白了

量子位

0+阅读 · 2022年1月28日

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

机器之心

0+阅读 · 2022年1月5日

在《我的世界》当矿工，腾讯「绝悟」夺冠NeurIPS MineRL 挑战赛

机器之心

0+阅读 · 2021年12月11日

在《我的世界》中挖钻石有多难？这个NeurIPS挑战赛上，没有一个AI能在15min内完成

量子位

0+阅读 · 2021年12月11日

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

PaperWeekly

2+阅读 · 2021年11月30日

蒙特卡洛树搜索加冕《指环王》! 游戏越复杂，AI越厉害

THU数据派

0+阅读 · 2021年10月12日

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

总变差正则化模型的区域分解算法及其医学图像应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

基于稀疏表示的单幅图像联合盲复原及识别

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

多视角识别人类复杂疾病相关microRNA的数学模型与方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于模糊和神经网络的微陀螺鲁棒自适应控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于学习人类策略的动态稳定系统控制器切换方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

通用型记忆和联想增量学习神经网络研究

国家自然科学基金

1+阅读 · 2009年12月31日

多目标下结构进化型再励学习方法及其实现技术研究

国家自然科学基金

0+阅读 · 2008年12月31日

Almost Optimal Algorithms for Two-player Zero-Sum Linear Mixture Markov Games

Arxiv

0+阅读 · 2022年4月20日

Exploring Dense Retrieval for Dialogue Response Selection

Arxiv

0+阅读 · 2022年4月20日

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Arxiv

0+阅读 · 2022年4月19日

Shallow camera pipeline for night photography rendering

Arxiv

1+阅读 · 2022年4月19日

Broadening AI Ethics Narratives: An Indic Art View

Arxiv

0+阅读 · 2022年4月17日

The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents

Arxiv

0+阅读 · 2022年4月16日

COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

Arxiv

4+阅读 · 2022年4月15日

Identifying and Measuring Token-Level Sentiment Bias in Pre-trained Language Models with Prompts

Arxiv

0+阅读 · 2022年4月15日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员