In this paper, we propose Posterior Sampling Reinforcement Learning for Zero-sum Stochastic Games (PSRL-ZSG), the first online learning algorithm that achieves Bayesian regret bound of $O(HS\sqrt{AT})$ in the infinite-horizon zero-sum stochastic games with average-reward criterion. Here $H$ is an upper bound on the span of the bias function, $S$ is the number of states, $A$ is the number of joint actions and $T$ is the horizon. We consider the online setting where the opponent can not be controlled and can take any arbitrary time-adaptive history-dependent strategy. This improves the best existing regret bound of $O(\sqrt[3]{DS^2AT^2})$ by Wei et. al., 2017 under the same assumption and matches the theoretical lower bound in $A$ and $T$.


翻译:在本文中,我们提议为零和沙发运动会(PSRL-ZSG)提供Poside Servication Securement Learning,这是第一个在线学习算法,它使巴伊西亚人以平均回报标准在无限一等零和零和随机游戏中以美元(O(HS\sqrt{AT})为遗憾)实现遗憾。这里,H$是偏差功能的上限,$S是国家数量,$A$是联合行动的数量,$T$是地平线。我们认为,在网上设置中,对手无法控制,可以采取任何任意的时间适应历史的战略。这改善了Wei等人根据同一假设对2017年美元(O)(Sqrt[3]{DS%2AT})的现有最佳遗憾约束,并符合以美元和美元计算的较低理论约束。

0
下载
关闭预览

相关内容

专知会员服务
156+阅读 · 2021年3月6日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
113+阅读 · 2020年8月15日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
3+阅读 · 2018年10月11日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
12+阅读 · 2018年4月27日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年10月29日
Arxiv
0+阅读 · 2021年10月28日
Arxiv
0+阅读 · 2021年10月26日
VIP会员
相关VIP内容
专知会员服务
156+阅读 · 2021年3月6日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
113+阅读 · 2020年8月15日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
3+阅读 · 2018年10月11日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
12+阅读 · 2018年4月27日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员