Recent algorithms allow decentralised agents, possibly connected via a communication network, to learn equilibria in mean-field games from a non-episodic run of the empirical system. However, these algorithms are for tabular settings: this computationally limits the size of agents' observation space, meaning the algorithms cannot handle anything but small state spaces, nor generalise beyond policies depending only on the agent's local state to so-called 'population-dependent' policies. We address this limitation by introducing function approximation to the existing setting, drawing on the Munchausen Online Mirror Descent method that has previously been employed only in finite-horizon, episodic, centralised settings. While this permits us to include the mean field in the observation for players' policies, it is unrealistic to assume decentralised agents have access to this global information: we therefore also provide new algorithms allowing agents to locally estimate the global empirical distribution, and to improve this estimate via inter-agent communication. We prove theoretically that exchanging policy information helps networked agents outperform both independent and even centralised agents in function-approximation settings. Our experiments demonstrate this happening empirically, and show that the communication network allows decentralised agents to estimate the mean field for population-dependent policies.


翻译:近期算法使得可能通过通信网络连接的分散式智能体能够从经验系统的非片段化运行中学习均值场博弈的均衡。然而,这些算法仅适用于表格化设置:这在计算上限制了智能体观测空间的规模,意味着算法只能处理较小的状态空间,且无法泛化至仅依赖智能体局部状态的策略之外,即所谓的"种群依赖"策略。我们通过引入函数逼近来应对这一局限,借鉴了先前仅用于有限时域、片段化、集中式设置的Munchausen在线镜像下降方法。虽然这允许我们将均值场纳入智能体策略的观测中,但假设分散式智能体能够获取这一全局信息是不现实的:因此我们还提出了新算法,使智能体能够局部估计全局经验分布,并通过智能体间通信改进该估计。我们从理论上证明,在函数逼近设置中,交换策略信息有助于网络化智能体超越独立智能体乃至集中式智能体的性能。实验结果表明这一现象在经验层面得以实现,并证明通信网络能使分散式智能体为种群依赖策略估计均值场。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员