Multi-agent Reinforcement Learning (MARL) problems often require cooperation among agents in order to solve a task. Centralization and decentralization are two approaches used for cooperation in MARL. While fully decentralized methods are prone to converge to suboptimal solutions due to partial observability and nonstationarity, the methods involving centralization suffer from scalability limitations and lazy agent problem. Centralized training decentralized execution paradigm brings out the best of these two approaches; however, centralized training still has an upper limit of scalability not only for acquired coordination performance but also for model size and training time. In this work, we adopt the centralized training with decentralized execution paradigm and investigate the generalization and transfer capacity of the trained models across variable number of agents. This capacity is assessed by training variable number of agents in a specific MARL problem and then performing greedy evaluations with variable number of agents for each training configuration. Thus, we analyze the evaluation performance for each combination of agent count for training versus evaluation. We perform experimental evaluations on predator prey and traffic junction environments and demonstrate that it is possible to obtain similar or higher evaluation performance by training with less agents. We conclude that optimal number of agents to perform training may differ from the target number of agents and argue that transfer across large number of agents can be a more efficient solution to scaling up than directly increasing number of agents during training.


翻译:多剂强化学习(MARL)问题往往要求代理人之间进行合作,以便完成任务。中央化和权力下放是MARL合作的两种方法。虽然完全分散化的方法由于部分可观察性和不经常性而容易趋向于非最佳解决办法,但集中化的方法有伸缩性限制和懒惰剂问题。集中化的分散化执行模式使这两种方法产生最佳效果;然而,集中化培训不仅对获得的协调业绩,而且对示范规模和培训时间而言,仍然具有可伸缩性的上限。在这项工作中,我们采用分散化执行模式的集中培训,并调查不同数目的代理人之间经过培训的模式的普及和转让能力。这种能力是通过培训特定MARL问题中不同数目的代理人进行评估,然后对每种培训配置中不同数目的代理人进行贪婪评价。因此,我们分析两种方法的每一个组合的代理人对培训的计数与评价的最好;我们对食肉和交通交叉环境进行实验性评价,并证明通过培训较少的代理人获得类似或更高的评价业绩。我们的结论是,在培训过程中,从事培训的代理人中,从事培训的最理想数目比培训的代理人更多的代理人更多的代理人可直接增加数目。

0
下载
关闭预览

相关内容

【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps
Stabilizing Transformers for Reinforcement Learning
专知会员服务
54+阅读 · 2019年10月17日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
9+阅读 · 2020年9月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年1月28日
Large-Scale Study of Curiosity-Driven Learning
Arxiv
8+阅读 · 2018年8月13日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关VIP内容
【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps
Stabilizing Transformers for Reinforcement Learning
专知会员服务
54+阅读 · 2019年10月17日
相关资讯
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
9+阅读 · 2020年9月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员