【NeurIPS 2021】设置多智能体策略梯度的方差 - 专知VIP

会员服务 ·

3

策略梯度 · NeurIPS 2021 · 论文 ·

2021 年 10 月 24 日

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Setting the Variance of Multi-Agent Policy Gradients

策略梯度方法是常见的强化学习方法之一，其中基线函数通常用于减少梯度估计的方差。在多智能体强化学习中，虽然策略梯度定理可直接被扩展使用，但随着梯度估计的方差随着智能体数量的增加而迅速增加，多智能体策略梯度方法的性能会逐渐恶化。本文中，我们首先通过量化智能体数量及各智能体探索对多智能体策略梯度估计方差的贡献，对策略梯度方法进行了严格的分析。基于此分析，可获得实现最小方差的最佳基线函数。进而我们测量了现有多智能体强化学习算法如vanilla MAPG和COMA的过量方差。考虑到现有方法大多使用深度神经网络，为此我们提出了可以直接与现有多智能体强化学习策略梯度方法相兼容的代理最优基线函数。在多智能体MuJoCo和星际争霸基线任务上，所提方法有效地稳定了训练过程，并显著提高了MAPPO和COMA算法的性能。

https://www.zhuanzhi.ai/paper/44143cf9491f61bb2ca14e5c6a0abe27

成为VIP会员查看完整内容

21

相关内容

策略梯度

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

专知会员服务

30+阅读 · 2021年12月13日

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

专知会员服务

16+阅读 · 2021年11月3日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

记忆增强型深度强化学习研究综述

专知会员服务

52+阅读 · 2021年4月6日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【KDD2020】最小方差采样用于图神经网络的快速训练

【KDD2020】最小方差采样用于图神经网络的快速训练

专知会员服务

28+阅读 · 2020年7月13日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

深度策略梯度算法是真正的策略梯度算法吗？

深度策略梯度算法是真正的策略梯度算法吗？

机器之心

3+阅读 · 2018年11月20日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

强化学习实验里到底需要多少个随机种子的严格证明

强化学习实验里到底需要多少个随机种子的严格证明

AI研习社

5+阅读 · 2018年8月4日

比TD、MC、MCTS指数级快，性能超越A3C、DDQN等模型，这篇RL算法论文在Reddit上火了

比TD、MC、MCTS指数级快，性能超越A3C、DDQN等模型，这篇RL算法论文在Reddit上火了

全球人工智能

6+阅读 · 2018年6月23日

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

专知

7+阅读 · 2017年10月27日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

Privacy-preserving and Trusted Threat Intelligence Sharing using Distributed Ledgers

Arxiv

0+阅读 · 2021年12月19日

Learning to Share in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年12月16日

Multi-view Contrastive Graph Clustering

Arxiv

13+阅读 · 2021年10月22日

Settling the Variance of Multi-Agent Policy Gradients

Arxiv

8+阅读 · 2021年8月20日

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

Arxiv

7+阅读 · 2021年6月22日

Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments

Arxiv

3+阅读 · 2020年12月8日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Diff-DAC: Distributed Actor-Critic for Average Multitask Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年4月22日

Multiagent Cooperation and Competition with Deep Reinforcement Learning

Arxiv

4+阅读 · 2015年11月27日

VIP会员

相关主题

相关VIP内容

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

专知会员服务

30+阅读 · 2021年12月13日

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

专知会员服务

16+阅读 · 2021年11月3日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

记忆增强型深度强化学习研究综述

专知会员服务

52+阅读 · 2021年4月6日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【KDD2020】最小方差采样用于图神经网络的快速训练

【KDD2020】最小方差采样用于图神经网络的快速训练

专知会员服务

28+阅读 · 2020年7月13日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

深度策略梯度算法是真正的策略梯度算法吗？

深度策略梯度算法是真正的策略梯度算法吗？

机器之心

3+阅读 · 2018年11月20日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

强化学习实验里到底需要多少个随机种子的严格证明

强化学习实验里到底需要多少个随机种子的严格证明

AI研习社

5+阅读 · 2018年8月4日

比TD、MC、MCTS指数级快，性能超越A3C、DDQN等模型，这篇RL算法论文在Reddit上火了

比TD、MC、MCTS指数级快，性能超越A3C、DDQN等模型，这篇RL算法论文在Reddit上火了

全球人工智能

6+阅读 · 2018年6月23日

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

专知

7+阅读 · 2017年10月27日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

相关论文

Privacy-preserving and Trusted Threat Intelligence Sharing using Distributed Ledgers

Arxiv

0+阅读 · 2021年12月19日

Learning to Share in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年12月16日

Multi-view Contrastive Graph Clustering

Arxiv

13+阅读 · 2021年10月22日

Settling the Variance of Multi-Agent Policy Gradients

Arxiv

8+阅读 · 2021年8月20日

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

Arxiv

7+阅读 · 2021年6月22日

Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments

Arxiv

3+阅读 · 2020年12月8日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Diff-DAC: Distributed Actor-Critic for Average Multitask Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年4月22日

Multiagent Cooperation and Competition with Deep Reinforcement Learning

Arxiv

4+阅读 · 2015年11月27日

微信扫码咨询专知VIP会员