One practical requirement in solving dynamic games is to ensure that the players play well from any decision point onward. To satisfy this requirement, existing efforts focus on equilibrium refinement, but the scalability and applicability of existing techniques are limited. In this paper, we propose Temporal-Induced Self-Play (TISP), a novel reinforcement learning-based framework to find strategies with decent performances from any decision point onward. TISP uses belief-space representation, backward induction, policy learning, and non-parametric approximation. Building upon TISP, we design a policy-gradient-based algorithm TISP-PG. We prove that TISP-based algorithms can find approximate Perfect Bayesian Equilibrium in zero-sum one-sided stochastic Bayesian games with finite horizon. We test TISP-based algorithms in various games, including finitely repeated security games and a grid-world game. The results show that TISP-PG is more scalable than existing mathematical programming-based methods and significantly outperforms other learning-based methods.


翻译:解决动态游戏的一个实际要求是,确保玩家从任何决定点起就很好地玩。为了满足这一要求,现有努力侧重于平衡的完善,但现有技术的可缩放性和适用性有限。在本文件中,我们提议采用时间诱导自玩(TISP)这一新的强化学习框架,以找到具有任何决定点起的体面表现的战略。TISP使用信仰-空间代表、后向上演、政策学习和非参数近似。在TISP的基础上,我们设计了以政策为优先的TISP-PG算法。我们证明,基于TIS的算法可以找到近似完美的巴伊斯平衡法,以零和单向的单向式波亚游戏。我们在各种游戏中测试基于TISP的算法,包括有限的重复安全游戏和网格世界游戏。结果显示,TISPG比现有的数学编程方法更具有伸缩性,而且大大超出其他学习方法。

0
下载
关闭预览

相关内容

【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
126+阅读 · 2021年7月14日
专知会员服务
77+阅读 · 2021年3月16日
专知会员服务
41+阅读 · 2021年2月12日
专知会员服务
51+阅读 · 2020年12月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
65+阅读 · 2021年6月18日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关VIP内容
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
126+阅读 · 2021年7月14日
专知会员服务
77+阅读 · 2021年3月16日
专知会员服务
41+阅读 · 2021年2月12日
专知会员服务
51+阅读 · 2020年12月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员