【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力 - 专知VIP

会员服务 ·

14

NeurIPS 2024 · 多智能体强化学习 ·

2024 年 10 月 6 日

【NeurIPS 2024】通过等变性提升多智能体强化学习中的样本效率和泛化能力

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）在样本效率和泛化能力方面存在挑战 [1]。这些挑战部分源于通常用于学习策略的神经网络缺乏结构或归纳偏置。在多智能体场景中，常见的一种结构是对称性。几何深度学习（Geometric Deep Learning）领域开发了等变图神经网络（Equivariant Graph Neural Networks, EGNN），它们对节点的旋转、平移和反射具有等变性（或对称性）。引入等变性已被证明可以提高学习效率并减少误差 [2]。本文中，我们展示了 EGNNs 提高了 MARL 的样本效率和泛化能力。然而，我们还发现，将 EGNNs 直接应用于 MARL 会导致早期探索表现不佳，这是由于 EGNN 结构中的偏置。为了解决这一问题，我们提出了探索增强型等变图神经网络（Exploration-enhanced Equivariant Graph Neural Networks, E2GN2）。我们将 E2GN2 与其他常用的函数逼近器进行了比较，使用了常见的 MARL 基准测试 MPE 和 SMACv2。结果表明，E2GN2 显著提高了样本效率，最终奖励收敛更高，并且在泛化测试中相较于标准 GNNs 提升了 2 倍至 5 倍的性能。我们的研究为在复杂多智能体系统中提供更可靠且有效的解决方案铺平了道路。

https://www.zhuanzhi.ai/paper/d4a39764ec4e33851558579e3da4a914

成为VIP会员查看完整内容

19

相关内容

NeurIPS 2024

【NeurIPS2024】通过超球面能量最小化 CKA 增强贝叶斯深度学习中的多样性

【NeurIPS2024】通过超球面能量最小化 CKA 增强贝叶斯深度学习中的多样性

专知会员服务

18+阅读 · 2024年11月4日

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

专知会员服务

18+阅读 · 2024年7月21日

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

专知会员服务

30+阅读 · 2023年10月10日

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

专知会员服务

36+阅读 · 2022年9月23日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【NeurIPS 2021】通过元学习优化可重用知识实现持续学习

专知会员服务

23+阅读 · 2021年9月30日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【CVPR2021】多实例主动学习目标检测

【CVPR2021】多实例主动学习目标检测

专知会员服务

43+阅读 · 2021年4月18日

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

专知会员服务

23+阅读 · 2020年4月12日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

Permutative redundancy and uncertainty of the objective in deep learning

Arxiv

0+阅读 · 2024年11月11日

Deep graph kernel point processes

Arxiv

0+阅读 · 2024年11月11日

Discretize first, filter next: learning divergence-consistent closure models for large-eddy simulation

Arxiv

0+阅读 · 2024年11月8日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

VIP会员

相关主题

多智能体强化学习

相关VIP内容

【NeurIPS2024】通过超球面能量最小化 CKA 增强贝叶斯深度学习中的多样性

【NeurIPS2024】通过超球面能量最小化 CKA 增强贝叶斯深度学习中的多样性

专知会员服务

18+阅读 · 2024年11月4日

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题

专知会员服务

18+阅读 · 2024年7月21日

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

【NeurIPS 2023】通过贝叶斯方法使语言模型与人类偏好相对齐

专知会员服务

30+阅读 · 2023年10月10日

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

【NeurIPS2022】协作多智能体强化学习中个体全局最大值的再思考

专知会员服务

36+阅读 · 2022年9月23日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【NeurIPS 2021】通过元学习优化可重用知识实现持续学习

专知会员服务

23+阅读 · 2021年9月30日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【WWW2021】高效的非抽样知识图谱嵌入

专知会员服务

38+阅读 · 2021年4月25日

【CVPR2021】多实例主动学习目标检测

【CVPR2021】多实例主动学习目标检测

专知会员服务

43+阅读 · 2021年4月18日

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

专知会员服务

23+阅读 · 2020年4月12日

热门VIP内容

开通专知VIP会员享更多权益服务

扩散语言模型综述

《美陆军徒步机动作战条令手册》最新168页

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

军事后勤数字化未来展望

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

相关论文

Permutative redundancy and uncertainty of the objective in deep learning

Arxiv

0+阅读 · 2024年11月11日

Deep graph kernel point processes

Arxiv

0+阅读 · 2024年11月11日

Discretize first, filter next: learning divergence-consistent closure models for large-eddy simulation

Arxiv

0+阅读 · 2024年11月8日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

微信扫码咨询专知VIP会员