We study the problem of multi-robot mapless navigation in the popular Centralized Training and Decentralized Execution (CTDE) paradigm. This problem is challenging when each robot considers its path without explicitly sharing observations with other robots and can lead to non-stationary issues in Deep Reinforcement Learning (DRL). The typical CTDE algorithm factorizes the joint action-value function into individual ones, to favor cooperation and achieve decentralized execution. Such factorization involves constraints (e.g., monotonicity) that limit the emergence of novel behaviors in an individual as each agent is trained starting from a joint action-value. In contrast, we propose a novel architecture for CTDE that uses a centralized state-value network to compute a joint state-value, which is used to inject global state information in the value-based updates of the agents. Consequently, each model computes its gradient update for the weights, considering the overall state of the environment. Our idea follows the insights of Dueling Networks as a separate estimation of the joint state-value has both the advantage of improving sample efficiency, while providing each robot information whether the global state is (or is not) valuable. Experiments in a robotic navigation task with 2 4, and 8 robots, confirm the superior performance of our approach over prior CTDE methods (e.g., VDN, QMIX).


翻译:我们在流行的中央化培训和分散执行(CTDE)范式中研究多机器人无地图导航问题。当每个机器人考虑其路径时,不与其他机器人明确分享观测结果,并可能导致深强化学习(DRL)中的非静止问题时,这一问题具有挑战性。典型的CTDE算法因素将联合行动-价值功能转化为单个功能,有利于合作,实现分散执行。这种因素化涉及限制个人新行为的出现(例如单调性),因为每个代理人都从联合行动-价值开始接受培训。相反,我们建议为CTDE建立一个新的结构,利用中央化的国家-价值网络来计算共同的国家-价值,用于在基于价值的代理人更新中输入全球国家信息。因此,每个模型都计算其权重值的梯度更新,同时考虑到环境的总体状况。我们的想法是将裁断N网络作为对联合国家价值的单独估计,其优点是提高样品效率,同时提供每个机器人的样本效率,同时提供中央化的状态-价值网络来计算一个共同的国家-价值网络,用来在基于价值的更新过程中输入全球机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人-机器人

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
3+阅读 · 2018年10月5日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
VIP会员
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员