Setting the Variance of Multi-Agent Policy Gradients
策略梯度方法是常见的强化学习方法之一,其中基线函数通常用于减少梯度估计的方差。在多智能体强化学习中,虽然策略梯度定理可直接被扩展使用,但随着梯度估计的方差随着智能体数量的增加而迅速增加,多智能体策略梯度方法的性能会逐渐恶化。本文中,我们首先通过量化智能体数量及各智能体探索对多智能体策略梯度估计方差的贡献,对策略梯度方法进行了严格的分析。基于此分析,可获得实现最小方差的最佳基线函数。进而我们测量了现有多智能体强化学习算法如vanilla MAPG和COMA的过量方差。考虑到现有方法大多使用深度神经网络,为此我们提出了可以直接与现有多智能体强化学习策略梯度方法相兼容的代理最优基线函数。在多智能体MuJoCo和星际争霸基线任务上,所提方法有效地稳定了训练过程,并显著提高了MAPPO和COMA算法的性能。
https://www.zhuanzhi.ai/paper/44143cf9491f61bb2ca14e5c6a0abe27