This paper investigates the problem of computing the equilibrium of competitive games, which is often modeled as a constrained saddle-point optimization problem with probability simplex constraints. Despite recent efforts in understanding the last-iterate convergence of extragradient methods in the unconstrained setting, the theoretical underpinnings of these methods in the constrained settings, especially those using multiplicative updates, remain highly inadequate, even when the objective function is bilinear. Motivated by the algorithmic role of entropy regularization in single-agent reinforcement learning and game theory, we develop provably efficient extragradient methods to find the quantal response equilibrium (QRE) -- which are solutions to zero-sum two-player matrix games with entropy regularization -- at a linear rate. The proposed algorithms can be implemented in a decentralized manner, where each player executes symmetric and multiplicative updates iteratively using its own payoff without observing the opponent's actions directly. In addition, by controlling the knob of entropy regularization, the proposed algorithms can locate an approximate Nash equilibrium of the unregularized matrix game at a sublinear rate without assuming the Nash equilibrium to be unique. Our methods also lead to efficient policy extragradient algorithms for solving entropy-regularized zero-sum Markov games at a linear rate. All of our convergence rates are nearly dimension-free, which are independent of the size of the state and action spaces up to logarithm factors, highlighting the positive role of entropy regularization for accelerating convergence.


翻译:本文调查了计算竞争性游戏平衡的问题。 竞争性游戏通常被模拟成一个有限的马鞍优化问题,有概率简单限制。 尽管最近努力理解在不受限制的环境下,超升级方法的最后地步趋同,但这些方法在受限制的环境下的理论基础,特别是那些使用倍增更新的方法,仍然非常不足,即使目标功能是双线的,即使目标功能是双向的。我们受单一试剂强化学习和游戏理论中的变相正规化算法作用的驱动,我们开发了可被察觉到的高效超高级方法,以找到四级反应平衡(QRE) -- -- 这是以直线速正规化的零和二位玩者矩阵游戏的解决方案。提议的算法可以以分散的方式实施,让每个玩家在不直接观察对手动作的情况下使用对称和倍增版的更新。 此外,通过控制精度正规化的Knopy 正规化矩阵游戏(QRE), 将非正规化矩阵游戏的近端平流化平衡定位为次直线率, 也假设所有超正级的平级变正正正正平比率。

0
下载
关闭预览

相关内容

【Java实现遗传算法】162页pdf,Genetic Algorithms in Java Basics
专知会员服务
43+阅读 · 2020年7月19日
专知会员服务
53+阅读 · 2020年3月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
3+阅读 · 2019年9月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年7月20日
Arxiv
0+阅读 · 2021年7月17日
A Modern Introduction to Online Learning
Arxiv
20+阅读 · 2019年12月31日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
3+阅读 · 2019年9月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员