We study the problem of multiple agents learning concurrently in a multi-objective environment. Specifically, we consider two agents that repeatedly play a multi-objective normal-form game. In such games, the payoffs resulting from joint actions are vector valued. Taking a utility-based approach, we assume a utility function exists that maps vectors to scalar utilities and consider agents that aim to maximise the utility of expected payoff vectors. As agents do not necessarily know their opponent's utility function or strategy, they must learn optimal policies to interact with each other. To aid agents in arriving at adequate solutions, we introduce four novel preference communication protocols for both cooperative as well as self-interested communication. Each approach describes a specific protocol for one agent communicating preferences over their actions and how another agent responds. These protocols are subsequently evaluated on a set of five benchmark games against baseline agents that do not communicate. We find that preference communication can drastically alter the learning process and lead to the emergence of cyclic Nash equilibria which had not been previously observed in this setting. Additionally, we introduce a communication scheme where agents must learn when to communicate. For agents in games with Nash equilibria, we find that communication can be beneficial but difficult to learn when agents have different preferred equilibria. When this is not the case, agents become indifferent to communication. In games without Nash equilibria, our results show differences across learning rates. When using faster learners, we observe that explicit communication becomes more prevalent at around 50% of the time, as it helps them in learning a compromise joint policy. Slower learners retain this pattern to a lesser degree, but show increased indifference.


翻译:我们研究多个代理商在多目标环境中同时学习的问题。 具体地说, 我们考虑两个代理商在多目标环境中反复玩多目标正常形式游戏。 在这样的游戏中, 联合行动的回报是矢量值。 采用基于公用方法, 我们假设一个实用功能存在, 将矢量映射为天平水电, 并考虑旨在最大限度地发挥预期报酬矢量的效用的代理商。 由于代理商不一定知道对方的实用功能或战略, 他们必须学习最佳政策, 才能相互互动。 为了帮助代理商达成适当的解决方案, 我们为合作和自我感兴趣的通信引入四种新的优先通信协议。 每一种方法都描述一个代理商交流其行动的偏好和另一个代理商的反应方式的具体协议。 我们假设, 以一套五种基准游戏来对照没有沟通的基线代理商来评估这些协议。 我们发现, 偏爱度通信可以大大改变学习过程, 导致在此背景下没有观察到的周期性 Nash 平衡的出现。 此外, 我们引入了一个通信计划, 代理商必须学习何时沟通。 在与纳克平原则的游戏中, 选择了一种不固定的周期性游戏中, 我们发现, 学习方式的代理商更难, 学习了一种有利于的代理商 学习方式是学习 学习 学习 学习 学习 学习 学习 学习 学习 。 学习 学习 。 在不 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习

0
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2022年1月21日
Decentralized Mean Field Games
Arxiv
0+阅读 · 2022年1月20日
Anytime Optimal PSRO for Two-Player Zero-Sum Games
Arxiv
0+阅读 · 2022年1月19日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员