The predominant paradigm in evolutionary game theory and more generally online learning in games is based on a clear distinction between a population of dynamic agents that interact given a fixed, static game. In this paper, we move away from the artificial divide between dynamic agents and static games, to introduce and analyze a large class of competitive settings where both the agents and the games they play evolve strategically over time. We focus on arguably the most archetypal game-theoretic setting -- zero-sum games (as well as network generalizations) -- and the most studied evolutionary learning dynamic -- replicator, the continuous-time analogue of multiplicative weights. Populations of agents compete against each other in a zero-sum competition that itself evolves adversarially to the current population mixture. Remarkably, despite the chaotic coevolution of agents and games, we prove that the system exhibits a number of regularities. First, the system has conservation laws of an information-theoretic flavor that couple the behavior of all agents and games. Secondly, the system is Poincar\'{e} recurrent, with effectively all possible initializations of agents and games lying on recurrent orbits that come arbitrarily close to their initial conditions infinitely often. Thirdly, the time-average agent behavior and utility converge to the Nash equilibrium values of the time-average game. Finally, we provide a polynomial time algorithm to efficiently predict this time-average behavior for any such coevolving network game.


翻译:进化游戏理论以及更普遍的游戏中在线学习的主导范式是基于一种明确的区分,即:在固定的、静态的游戏中互动的动态代理人的人群之间有明显区别。在本文中,我们摆脱了动态代理人与静态游戏之间的人为鸿沟,引入并分析一大批竞争环境,在这些环境中,他们玩的代理人和游戏都随着时间的演变而演变。我们关注的是最古老的游戏理论环境 -- -- 零和游戏(以及网络的概括化) -- -- 以及最受研究的进化学习动态 -- -- 复制者,倍增重量的连续时间类比。在零和竞争中,代理人和游戏的人群相互竞争,而这种零和游戏本身与当前人口混合的对立。值得注意的是,尽管代理人和游戏的演变是混乱的,我们证明这个系统表现出了一定的规律性。首先,这个系统保存着一种将所有代理人和游戏行为和游戏的行为结合起来的信息-理论调味的规律。第二,这个系统是反复出现,所有可能的代理人和游戏的初始模拟。 游戏的开始和游戏游戏游戏游戏的游戏的游戏的游戏周期性,最终的稳定性,我们可以任意地接近到一个稳定的游戏的游戏的游戏的游戏的周期性, 。这个游戏的游戏的游戏的游戏的周期性,我们最终的游戏的游戏的游戏的游戏的周期性, 提供了一个无限的游戏的游戏的游戏的游戏的周期性, 的周期性, 我们的游戏的游戏的周期性, 的游戏的游戏的游戏的游戏的游戏的周期性,最终的周期性, 的周期性, 的周期性,我们的周期性, 的周期性,我们的游戏的周期性, 我们的游戏的游戏的游戏的周期性, 我们的周期性, 的周期性, 我们的游戏的周期性, 的游戏的周期性, 的周期性,我们的游戏的游戏的游戏的周期性, 的周期性,我们的周期性, 的周期性, 的游戏的游戏的游戏的游戏的周期性,我们的周期性, 的周期性, 的周期性,我们的游戏的游戏的周期性, 的周期性,我们的游戏的周期性, 我们的周期性, 的周期性,我们的周期性, 的周期性

0
下载
关闭预览

相关内容

博弈论(Game theory)有时也称为对策论,或者赛局理论,应用数学的一个分支,目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构(游戏或者博弈)间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。
Python编程基础,121页ppt
专知会员服务
48+阅读 · 2021年1月1日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
专知会员服务
44+阅读 · 2020年10月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年2月19日
Arxiv
0+阅读 · 2021年2月16日
VIP会员
相关VIP内容
Python编程基础,121页ppt
专知会员服务
48+阅读 · 2021年1月1日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
专知会员服务
44+阅读 · 2020年10月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员