促进行为多样性对于解决具有非传递性的动态博弈至关重要,因为这些博弈的策略存在周期性,而且没有一致的赢家(例如,剪刀石头布)。然而,在定义多样性和构建具有多样性意识的学习动态方面缺乏严格的处理。这项工作提供了游戏中行为多样性的几何解释,并引入了一种基于决定点过程(DPP)的新的多样性度量。通过将多样性度量纳入最佳响应动态,我们开发了多样化的策略空间响应机制,用于解决正常形式的博弈和开放式博弈。我们证明了不同最佳响应的唯一性和我们算法在两人博弈上的收敛性。重要的是,我们证明了最大化基于DPP的多样性度量保证了扩大由代理策略混合跨越的凸多面体。为了验证我们的多样性感知求解器,我们在数十个显示出强非传递性的博弈上进行了测试。结果表明,通过找到有效和多样化的策略,可以实现比最先进的求解器更低的可利用性。
https://www.zhuanzhi.ai/paper/92bae43a935a4cb28d57af4652726ba7