如果纳什均衡与动态过程的长期结果相对应,它作为预测工具的有用性可能取决于向均衡的收敛率。本文通过实验测试了在智能体具有互补奖励的竞争之间分配资源情况下,关于收敛到平衡速率的理论预测。响应性更强的竞赛成功函数给了智能体更强的激励去做出最佳反应,但学习模型预测在响应性更强的成功函数下,由于智能体在均衡状态下面临奖励,导致向均衡状态的收敛速度更慢。与学习模型的预测一致,我们观察到在反应更强烈的成功函数下收敛的速度更慢,这表明非均衡奖励包含了在经验环境下收敛到均衡的速度有用信息。

成为VIP会员查看完整内容
38

相关内容

《综述:基于博弈论和机器学习的防御性欺骗方法》
专知会员服务
50+阅读 · 2022年10月2日
使用博弈论进行国防资源分配管理
专知会员服务
77+阅读 · 2022年5月6日
专知会员服务
14+阅读 · 2021年9月25日
专知会员服务
13+阅读 · 2021年8月28日
[计算博弈论及其应用],85页ppt
专知会员服务
125+阅读 · 2021年7月21日
专知会员服务
36+阅读 · 2021年5月29日
【ICML2022】公平的因果概念及其后果
专知
3+阅读 · 2022年7月13日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
资源 | 一文读懂深度学习(附学习资源)
AI100
14+阅读 · 2017年11月30日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年4月30日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
15+阅读 · 2019年9月30日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员