Recent advances have witnessed that value decomposed-based multi-agent reinforcement learning methods make an efficient performance in coordination tasks. Most current methods assume that agents can make communication to assist decisions, which is impractical in some situations. In this paper, we propose a semi-communication method to enable agents can exchange information without communication. Specifically, we introduce a group concept to help agents learning a belief which is a type of consensus. With this consensus, adjacent agents tend to accomplish similar sub-tasks to achieve cooperation. We design a novel agent structure named Belief in Graph Clustering(BGC), composed of an agent characteristic module, a belief module, and a fusion module. To represent each agent characteristic, we use an MLP-based characteristic module to generate agent unique features. Inspired by the neighborhood cognitive consistency, we propose a group-based module to divide adjacent agents into a small group and minimize in-group agents' beliefs to accomplish similar sub-tasks. Finally, we use a hyper-network to merge these features and produce agent actions. To overcome the agent consistent problem brought by GAT, a split loss is introduced to distinguish different agents. Results reveal that the proposed method achieves a significant improvement in the SMAC benchmark. Because of the group concept, our approach maintains excellent performance with an increase in the number of agents.


翻译:最近的进展表明,价值分解的多试剂强化学习方法在协调任务中取得了高效的成绩。大多数现行方法假定代理人可以进行沟通以协助决策,在某些情况下是不切实际的。我们在本文件中提议半通信方法,使代理人能够不经交流而交换信息。具体地说,我们提出一个集团概念,帮助代理人学习一种具有某种共识的信念。有了这种共识,相邻代理人往往完成类似的子任务,从而实现合作。我们设计了一个名为“图集中的信仰”的新代理结构(BGC),由一个代理人特征模块、一个信仰模块和一个聚合模块组成。为了代表每个代理人的特点,我们使用一个基于MLP的特征模块来产生代理人的独特特征。在邻里认知一致性的激励下,我们提出一个基于集团的单元,将邻近的代理人分成一个小集团,并尽量减少集团内代理人的信念,以完成类似的子任务。最后,我们用一个超网络来合并这些特征并产生代理人的行动。为了克服GAT带来的代理人一贯的问题,我们引入了一种分解的损失来区分不同的代理人。结果表明,为了区分不同的代理人的特性,我们使用一个基于MAC的特性的模范的精准,从而保持了一种优秀的模范改进。

0
下载
关闭预览

相关内容

Group一直是研究计算机支持的合作工作、人机交互、计算机支持的协作学习和社会技术研究的主要场所。该会议将社会科学、计算机科学、工程、设计、价值观以及其他与小组工作相关的多个不同主题的工作结合起来,并进行了广泛的概念化。官网链接:https://group.acm.org/conferences/group20/
机器学习组合优化
专知会员服务
108+阅读 · 2021年2月16日
【图神经网络(GNN)结构化数据分析】
专知会员服务
115+阅读 · 2020年3月22日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
图表示学习Graph Embedding综述
图与推荐
10+阅读 · 2020年3月23日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年7月26日
Arxiv
1+阅读 · 2021年7月23日
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
7+阅读 · 2018年8月28日
VIP会员
相关资讯
图表示学习Graph Embedding综述
图与推荐
10+阅读 · 2020年3月23日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年7月26日
Arxiv
1+阅读 · 2021年7月23日
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
7+阅读 · 2018年8月28日
Top
微信扫码咨询专知VIP会员