促进行为多样性对于解决具有非传递性的动态博弈至关重要,因为这些博弈的策略存在周期性,而且没有一致的赢家(例如,剪刀石头布)。然而,在定义多样性和构建具有多样性意识的学习动态方面缺乏严格的处理。这项工作提供了游戏中行为多样性的几何解释,并引入了一种基于决定点过程(DPP)的新的多样性度量。通过将多样性度量纳入最佳响应动态,我们开发了多样化的策略空间响应机制,用于解决正常形式的博弈和开放式博弈。我们证明了不同最佳响应的唯一性和我们算法在两人博弈上的收敛性。重要的是,我们证明了最大化基于DPP的多样性度量保证了扩大由代理策略混合跨越的凸多面体。为了验证我们的多样性感知求解器,我们在数十个显示出强非传递性的博弈上进行了测试。结果表明,通过找到有效和多样化的策略,可以实现比最先进的求解器更低的可利用性。

https://www.zhuanzhi.ai/paper/92bae43a935a4cb28d57af4652726ba7

成为VIP会员查看完整内容
37

相关内容

专知会员服务
56+阅读 · 2021年6月30日
专知会员服务
22+阅读 · 2021年6月26日
【ICML2021】来自观察的跨域模仿
专知会员服务
18+阅读 · 2021年5月25日
专知会员服务
28+阅读 · 2021年5月24日
专知会员服务
37+阅读 · 2021年4月18日
专知会员服务
13+阅读 · 2021年3月13日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
专知会员服务
30+阅读 · 2021年2月21日
KDD 2019论文解读:异构信息网络上的对抗生成学习
云栖社区
22+阅读 · 2019年8月21日
在稀疏和欠明确奖励中学习泛化
谷歌开发者
6+阅读 · 2019年3月20日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
Arxiv
1+阅读 · 2021年7月16日
Cold-start Sequential Recommendation via Meta Learner
Arxiv
15+阅读 · 2020年12月10日
Arxiv
4+阅读 · 2019年9月5日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关VIP内容
专知会员服务
56+阅读 · 2021年6月30日
专知会员服务
22+阅读 · 2021年6月26日
【ICML2021】来自观察的跨域模仿
专知会员服务
18+阅读 · 2021年5月25日
专知会员服务
28+阅读 · 2021年5月24日
专知会员服务
37+阅读 · 2021年4月18日
专知会员服务
13+阅读 · 2021年3月13日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
专知会员服务
30+阅读 · 2021年2月21日
微信扫码咨询专知VIP会员