多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)在样本效率和泛化能力方面存在挑战 [1]。这些挑战部分源于通常用于学习策略的神经网络缺乏结构或归纳偏置。在多智能体场景中,常见的一种结构是对称性。几何深度学习(Geometric Deep Learning)领域开发了等变图神经网络(Equivariant Graph Neural Networks, EGNN),它们对节点的旋转、平移和反射具有等变性(或对称性)。引入等变性已被证明可以提高学习效率并减少误差 [2]。本文中,我们展示了 EGNNs 提高了 MARL 的样本效率和泛化能力。然而,我们还发现,将 EGNNs 直接应用于 MARL 会导致早期探索表现不佳,这是由于 EGNN 结构中的偏置。为了解决这一问题,我们提出了探索增强型等变图神经网络(Exploration-enhanced Equivariant Graph Neural Networks, E2GN2)。我们将 E2GN2 与其他常用的函数逼近器进行了比较,使用了常见的 MARL 基准测试 MPE 和 SMACv2。结果表明,E2GN2 显著提高了样本效率,最终奖励收敛更高,并且在泛化测试中相较于标准 GNNs 提升了 2 倍至 5 倍的性能。我们的研究为在复杂多智能体系统中提供更可靠且有效的解决方案铺平了道路。

https://www.zhuanzhi.ai/paper/d4a39764ec4e33851558579e3da4a914

成为VIP会员查看完整内容
17

相关内容

【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
专知会员服务
22+阅读 · 2021年9月30日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
37+阅读 · 2021年4月25日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
【CVPR2020-CMU】无数据模型选择,一种深度框架潜力
专知会员服务
22+阅读 · 2020年4月12日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Arxiv
0+阅读 · 11月11日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
专知会员服务
22+阅读 · 2021年9月30日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
37+阅读 · 2021年4月25日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
【CVPR2020-CMU】无数据模型选择,一种深度框架潜力
专知会员服务
22+阅读 · 2020年4月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员