Setting the Variance of Multi-Agent Policy Gradients

策略梯度方法是常见的强化学习方法之一,其中基线函数通常用于减少梯度估计的方差。在多智能体强化学习中,虽然策略梯度定理可直接被扩展使用,但随着梯度估计的方差随着智能体数量的增加而迅速增加,多智能体策略梯度方法的性能会逐渐恶化。本文中,我们首先通过量化智能体数量及各智能体探索对多智能体策略梯度估计方差的贡献,对策略梯度方法进行了严格的分析。基于此分析,可获得实现最小方差的最佳基线函数。进而我们测量了现有多智能体强化学习算法如vanilla MAPG和COMA的过量方差。考虑到现有方法大多使用深度神经网络,为此我们提出了可以直接与现有多智能体强化学习策略梯度方法相兼容的代理最优基线函数。在多智能体MuJoCo和星际争霸基线任务上,所提方法有效地稳定了训练过程,并显著提高了MAPPO和COMA算法的性能。

https://www.zhuanzhi.ai/paper/44143cf9491f61bb2ca14e5c6a0abe27

成为VIP会员查看完整内容
19

相关内容

专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
51+阅读 · 2021年4月6日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
专知会员服务
198+阅读 · 2019年8月30日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
深度策略梯度算法是真正的策略梯度算法吗?
机器之心
3+阅读 · 2018年11月20日
Arxiv
12+阅读 · 2021年10月22日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
51+阅读 · 2021年4月6日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
专知会员服务
198+阅读 · 2019年8月30日
微信扫码咨询专知VIP会员