A growing body of work in game theory extends the traditional Stackelberg game to settings with one leader and multiple followers who play a Nash equilibrium. Standard approaches for computing equilibria in these games reformulate the followers' best response as constraints in the leader's optimization problem. These reformulation approaches can sometimes be effective, but often get trapped in low-quality solutions when followers' objectives are non-linear or non-quadratic. Moreover, these approaches assume a unique equilibrium or a specific equilibrium concept, e.g., optimistic or pessimistic, which is a limiting assumption in many situations. To overcome these limitations, we propose a stochastic gradient descent--based approach, where the leader's strategy is updated by differentiating through the followers' best responses. We frame the leader's optimization as a learning problem against followers' equilibrium, which allows us to decouple the followers' equilibrium constraints from the leader's problem. This approach also addresses cases with multiple equilibria and arbitrary equilibrium selection procedures by back-propagating through a sampled Nash equilibrium. To this end, this paper introduces a novel concept called equilibrium flow to formally characterize the set of equilibrium selection processes where the gradient with respect to a sampled equilibrium is an unbiased estimate of the true gradient. We evaluate our approach experimentally against existing baselines in three Stackelberg problems with multiple followers and find that in each case, our approach is able to achieve higher utility for the leader.


翻译:游戏理论中越来越多的工作将传统的 Stackelberg 游戏扩展为与一位领导人和多名追随者一起玩纳什均衡的游戏。 这些游戏中计算平衡的标准方法将追随者的最佳反应作为领导者优化问题的制约因素重新排列。 这些重新制定的方法有时会有效,但当追随者的目标不是线性或非线性时,往往会陷入低质量的解决方案中。 此外, 这些方法还假设一种独特的平衡或特定平衡概念,例如乐观或悲观,这在许多情况下是一种有限的假设。为了克服这些限制,我们建议了一种基于梯度梯度下行的平衡标准方法,在这个方法中,领导者的战略通过对追随者最佳反应的制约来更新。我们把领导者的优化作为学习问题来对付追随者平衡的问题,这使我们能够将追随者平衡的制约与领导者的问题进行调和。这个方法还涉及多种平衡性选择方法,通过抽样的纳什均衡进行反向反向分析,因此,本文提出了一种叫得偏向梯度的基于梯位性梯度的新概念,通过追随者的最佳反应来正式地确定我们当前标准级标准级选择过程。

0
下载
关闭预览

相关内容

专知会员服务
12+阅读 · 2021年10月12日
【Google】梯度下降,48页ppt
专知会员服务
79+阅读 · 2020年12月5日
【DeepMind】强化学习教程,83页ppt
专知会员服务
149+阅读 · 2020年8月7日
深度强化学习策略梯度教程,53页ppt
专知会员服务
177+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
272+阅读 · 2019年10月9日
CCF推荐 | 国际会议信息6条
Call4Papers
9+阅读 · 2019年8月13日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
3+阅读 · 2018年4月10日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2022年2月10日
Arxiv
0+阅读 · 2022年2月9日
Arxiv
0+阅读 · 2022年2月8日
Arxiv
0+阅读 · 2022年2月7日
Arxiv
0+阅读 · 2022年2月7日
VIP会员
相关VIP内容
专知会员服务
12+阅读 · 2021年10月12日
【Google】梯度下降,48页ppt
专知会员服务
79+阅读 · 2020年12月5日
【DeepMind】强化学习教程,83页ppt
专知会员服务
149+阅读 · 2020年8月7日
深度强化学习策略梯度教程,53页ppt
专知会员服务
177+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
272+阅读 · 2019年10月9日
相关资讯
CCF推荐 | 国际会议信息6条
Call4Papers
9+阅读 · 2019年8月13日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
3+阅读 · 2018年4月10日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员