【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games） - 专知VIP

会员服务 ·

3

智能体 · 多智能体系统 · 心智模型 · 零和博弈 · 人工智能 ·

2019 年 12 月 10 日

【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games）

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

题目： Improving Policies via Search in Cooperative Partially Observable Games

摘要：

最近在游戏中的超人结果很大程度上是在各种零和游戏中实现的，比如围棋和扑克，在这些游戏中，玩家需要与他人竞争。然而，就像人类一样，现实世界的人工智能系统也必须在合作的、部分可观察的环境中与其他智能体进行协调和通信。这些设置通常要求参与者既要解释他人的行为，又要在解释时提供信息。这些能力通常被总结为心智理论，并被视为社会交往的关键。在本文中，我们提出了两种不同的搜索技术，可用于改进合作部分可观察博弈中的任意一致策略。第一个是单智能体搜索，它可以有效地将问题转换为单智能体。通过使除一个智能体外的所有智能体都按照商定的策略进行设置。相反，在多智能体搜索中，只要在计算上可行，所有智能体都会执行相同的公共知识搜索过程，否则就会退回到根据商定的策略进行搜索。我们证明了这些搜索过程在理论上至少保证了协议策略的原始性能(在有界近似误差范围内)。在Hanabi的基准挑战问题中，我们的搜索技术极大地提高了每一个测试的性能我们测试了智能体，当应用到使用RL训练的策略时，在游戏中获得了24.61/25的最新分数，而之前最好的分数是24.08/25。

作者简介：

Jakob Foerster是Facebook人工智能研究科学家，研究兴趣是深度学习，多智能体，强化学习，博弈论。

Noam Brown是Facebook人工智能研究科学家，研究兴趣是人工智能，博弈论算法，多智能体系统，机器学习。

成为VIP会员查看完整内容

16

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

91+阅读 · 2020年7月4日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

【IJCAI 2019 | tutorial】解决具有复杂策略空间的游戏中的问题 Solving Games With Complex Strategy Spaces，林肯大学|Hau Chan，卡内基梅隆大学|Fei Fang

【IJCAI 2019 | tutorial】解决具有复杂策略空间的游戏中的问题 Solving Games With Complex Strategy Spaces，林肯大学|Hau Chan，卡内基梅隆大学|Fei Fang

专知会员服务

29+阅读 · 2019年8月12日

【南洋理工Xavier】深度强化学习，课件与代码，109页PPT

【南洋理工Xavier】深度强化学习，课件与代码，109页PPT

专知

53+阅读 · 2019年11月28日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

科研圈

3+阅读 · 2019年7月12日

【伯克利《人工智能导论》(2018)课程视频+资料】

【伯克利《人工智能导论》(2018)课程视频+资料】

专知

17+阅读 · 2018年12月31日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

蒙特卡罗方法(Monte Carlo Methods)

蒙特卡罗方法(Monte Carlo Methods)

数据挖掘入门与实战

6+阅读 · 2018年4月22日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

新智元

16+阅读 · 2018年2月5日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Representation Learning with Contrastive Predictive Coding

Arxiv

6+阅读 · 2019年1月22日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

A Tour of Reinforcement Learning: The View from Continuous Control

Arxiv

6+阅读 · 2018年6月25日

Cache-Enabled Dynamic Rate Allocation via Deep Self-Transfer Reinforcement Learning

Arxiv

4+阅读 · 2018年3月30日

Noise2Noise: Learning Image Restoration without Clean Data

Arxiv

5+阅读 · 2018年3月12日

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

Arxiv

6+阅读 · 2018年1月16日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

VIP会员

相关主题

多智能体系统

相关VIP内容

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

91+阅读 · 2020年7月4日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

【IJCAI 2019 | tutorial】解决具有复杂策略空间的游戏中的问题 Solving Games With Complex Strategy Spaces，林肯大学|Hau Chan，卡内基梅隆大学|Fei Fang

【IJCAI 2019 | tutorial】解决具有复杂策略空间的游戏中的问题 Solving Games With Complex Strategy Spaces，林肯大学|Hau Chan，卡内基梅隆大学|Fei Fang

专知会员服务

29+阅读 · 2019年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【南洋理工Xavier】深度强化学习，课件与代码，109页PPT

【南洋理工Xavier】深度强化学习，课件与代码，109页PPT

专知

53+阅读 · 2019年11月28日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

科研圈

3+阅读 · 2019年7月12日

【伯克利《人工智能导论》(2018)课程视频+资料】

【伯克利《人工智能导论》(2018)课程视频+资料】

专知

17+阅读 · 2018年12月31日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

蒙特卡罗方法(Monte Carlo Methods)

蒙特卡罗方法(Monte Carlo Methods)

数据挖掘入门与实战

6+阅读 · 2018年4月22日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

新智元

16+阅读 · 2018年2月5日

相关论文

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Representation Learning with Contrastive Predictive Coding

Arxiv

6+阅读 · 2019年1月22日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

A Tour of Reinforcement Learning: The View from Continuous Control

Arxiv

6+阅读 · 2018年6月25日

Cache-Enabled Dynamic Rate Allocation via Deep Self-Transfer Reinforcement Learning

Arxiv

4+阅读 · 2018年3月30日

Noise2Noise: Learning Image Restoration without Clean Data

Arxiv

5+阅读 · 2018年3月12日

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

Arxiv

6+阅读 · 2018年1月16日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

微信扫码咨询专知VIP会员