We study the performance of the gradient play algorithm for multi-agent tabular Markov decision processes (MDPs), which are also known as stochastic games (SGs), where each agent tries to maximize its own total discounted reward by making decisions independently based on current state information which is shared between agents. Policies are directly parameterized by the probability of choosing a certain action at a given state. We show that Nash equilibria (NEs) and first order stationary policies are equivalent in this setting, and give a non-asymptotic global convergence rate analysis to an $\epsilon$-NE for a subclass of multi-agent MDPs called Markov potential games, which includes the cooperative setting with identical rewards among agents as an important special case. Our result shows that the number of iterations to reach an $\epsilon$-NE scales linearly, instead of exponentially, with the number of agents. Local geometry and local stability are also considered. For Markov potential games, we prove that strict NEs are local maxima of the total potential function and fully-mixed NEs are saddle points. We also give a local convergence rate around strict NEs for more general settings.


翻译:我们研究多试剂表单马可夫决策程序(MDPs)的梯度游戏算法的性能,该算法也称为随机游戏(SGs),每个代理商都试图通过独立地根据代理商之间共享的当前状态信息做出决策,最大限度地提高自己的全部折扣奖励。政策直接以在某个特定国家选择某种行动的概率为参数。我们显示Nash equilibria(NES)和一阶固定政策在这个环境中是等效的,并且对一个称为Markov 潜在MDPs子类的分级分级分级的分级分级的分级分级公司($/epsilon-NE)进行非零星($-NE)趋同率分析,该分级游戏称为Markov 潜在MDPs,其中包括在代理商之间以相同奖励的合作设置,作为一个重要的特殊案例。我们的结果显示,线度达到美元-NEE的升标数,而不是指数,与代理商数是相等的。当地测地测量和当地稳定政策也考虑。关于Markov潜在游戏,我们证明严格的NE是总潜在功能和完全混合NEEEV是固定的局部标准。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
9+阅读 · 2020年9月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
On Accelerating Distributed Convex Optimizations
Arxiv
0+阅读 · 2021年8月19日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关资讯
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
9+阅读 · 2020年9月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员