大型对抗性不完全信息博弈的均衡发现

不完全信息博弈模型是指具有私有信息的多个主体之间的交互作用。在这种情况下,一个典型的目标是接近一个均衡,在这个均衡中,所有主体的策略都是最优的。本文描述了大型对抗不完全信息博弈均衡计算方面的若干进展。这些新技术使人工智能智能体首次有可能在全规模扑克游戏中击败顶级人类专业人员。几十年来,扑克一直是人工智能和博弈论领域的一大挑战。

我们首先介绍了反事实后悔最小化(CFR)的改进,这是一种收敛于双方零和博弈纳什均衡的迭代算法。我们描述了CFR的新变种,使用折现来显著加快收敛速度。这些新的CFR变体现在是大型对抗非完全信息博弈的最先进的均衡发现算法。我们还介绍了第一种热启动CFR的通用技术。最后,我们介绍理论健全的剪枝技术,可以在大型博弈中数量级地加速收敛。

接下来,我们将描述通过自动抽象和函数近似将CFR扩展到大型游戏的新方法。特别地,我们介绍了第一个在不完全信息博弈中离散连续动作空间的算法。我们将其扩展到求解具有连续动作空间博弈的算法中。

之后,我们介绍了Deep CFR,一种使用神经网络函数近似而不是基于bucketing的抽象形式。Deep CFR是第一个可扩展到大型游戏的non-tabular形式的CFR,它使CFR能够在几乎没有领域知识的情况下成功部署。最后,我们提出了一种新的不完全信息博弈搜索技术,以确保智能体的搜索策略不会被对手利用。方法,它在计算上比以前的方法要代价要少得多。最最后,我们提出了一种在训练和测试时结合强化学习和搜索的算法ReBeL。它朝着弥合完全信息游戏和不完全信息游戏研究之间的差距迈出了重要的一步。

成为VIP会员查看完整内容
91

相关内容

【Alma Mate博士论文】深度架构持续学习,附150页pdf与Slides
专知会员服务
44+阅读 · 2020年11月18日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
最新《理论计算科学导论》书稿,655页pdf
专知会员服务
100+阅读 · 2020年9月17日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
129+阅读 · 2020年8月27日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
351+阅读 · 2020年6月24日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
AAAI 2019 四个杰出论文奖论文揭晓
算法与数学之美
5+阅读 · 2019年5月11日
Seeing What a GAN Cannot Generate
Arxiv
8+阅读 · 2019年10月24日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
3+阅读 · 2018年10月8日
Arxiv
5+阅读 · 2018年1月17日
Arxiv
12+阅读 · 2018年1月12日
VIP会员
相关VIP内容
【Alma Mate博士论文】深度架构持续学习,附150页pdf与Slides
专知会员服务
44+阅读 · 2020年11月18日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
最新《理论计算科学导论》书稿,655页pdf
专知会员服务
100+阅读 · 2020年9月17日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
129+阅读 · 2020年8月27日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
351+阅读 · 2020年6月24日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
相关论文
Seeing What a GAN Cannot Generate
Arxiv
8+阅读 · 2019年10月24日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
3+阅读 · 2018年10月8日
Arxiv
5+阅读 · 2018年1月17日
Arxiv
12+阅读 · 2018年1月12日
微信扫码咨询专知VIP会员