Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning
多智能体强化学习在网络路由,自动驾驶,机器人控制等方面得到的广泛的应用。在许多场景中,多个智能体需要相互合作来完成任务,而在每个时刻,环境只能反馈全局奖励(global reward)。在训练时,需要进行credit assignment,即将整体收益的估计值分配给各个独立的Agent,从而使得各个Agent能够合理的获得训练。目前的credit assignment分为隐式的方法和显式的方法,前者缺乏可解释性,而后者大多没有考虑agent之间的相互关系。本研究中,我们提出了一种使用Counterfactual Shapley Value来建模agent之间的相互关系的显式的方法。Shapley Value 源于合作博弈论,其基本思想是,先计算每个参与者在大联盟中所有子集的边际贡献,再对边际贡献进行加权平均来代表参与者的真实贡献。我们在研究中,首先提出了一种因果反事实Shapley Value的计算方法来衡量任意agent集合的输入与central critic输出的因果关系,即考虑该集合不存在时对模型性能的影响。基于此,我们计算每个agent对于central critic的contribution,并使用该contribution作为credits来对local agents进行训练。另一个问题是Shapley Value的计算复杂度是指数级别。为了提升训练效率,我们提出使用Monte Carlo采样来近似计算,从而将计算复杂度降低到线性级别。我们使用StarCraft II作为benchmark,在复杂的场景如3s5z和3s5z_vs_3s6z中的实验表明,我们的方法优于SOTA,从而说明了我们方法的优越性。【诺亚决策与推理团队和浙江大学计算机学院人工智能研究所联合研究成果】
https://www.zhuanzhi.ai/paper/06d0c35747b2ef6553c97056b1a69b24