决策制定无处不在,一些问题由于其序列性质变得特别具有挑战性,即后续决策取决于早期决策。虽然人类一直在努力解决顺序决策问题,但现代计算和机器学习技术是需要找到最优决策规则。一种流行的方法是强化学习(RL)视角,其中,代理通过基于其行动接收奖励来学习最优决策规则。在存在多个学习代理的情况下,顺序决策制定问题变成顺序博弈。在这种设置下,学习目标从找到最优决策规则转变为找到纳什均衡,即没有代理可以通过单方面切换到另一决策规则来增加他们的奖励。为了处理问题的顺序性质和其他学习代理的存在,多代理RL任务需要的数据比监督学习和单一代理RL任务更多。因此,样本效率对多代理RL的成功至关重要。

在这篇论文中,我研究了序列博弈中学习的最基本问题:1.(下界)在序列博弈中找到纳什均衡需要多少样本,无论使用什么学习算法?2.(上界)如何设计具有严格样本复杂性保证的(计算上)高效学习算法?当上界和下界相互匹配时,实现了(极小极大)最优学习。结果显示,利用序列博弈的结构是实现最优学习的关键。在这篇论文中,我们研究了两种类型的序列博弈的近乎最优学习:1.(马尔科夫博弈)所有代理可以观察到潜在的状态(第2章),2.(广泛形式博弈)不同的代理可以在给定相同状态的情况下具有不同的观察结果(第5章)。为了实现近乎最优学习,将引入一系列新颖的算法思想和分析工具,例如1.(自适应不确定性量化)对值函数估计进行尖锐的不确定性量化,以设计近乎最优的探索奖励(第3章),2.(认证策略)对历史策略进行非均匀和分阶段的重新加权,以产生近似纳什均衡策略(第4章),3.(平衡探索)根据子树的大小实现博弈树的最优探索(第6章),4.(对数分区函数重表述)将经典算法重新解释为计算对数分区函数的梯度(第7章),这可能具有独立的兴趣。

成为VIP会员查看完整内容
33

相关内容

麻省理工学院(Massachusetts Institute of Technology,MIT)是美国一所研究型私立大学,位于马萨诸塞州(麻省)的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉,该校的工程系曾连续七届获得美国工科研究生课程冠军,其中以电子工程专业名气最响,紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。
【ETH博士论文】基于离散优化的学习,193页pdf
专知会员服务
40+阅读 · 2023年9月17日
【剑桥大学博士论文】机器学习中的分布外泛化,214页pdf
【MIT博士论文】序列决策中的算法公平性,134页pdf
专知会员服务
23+阅读 · 2023年5月20日
专知会员服务
49+阅读 · 2021年6月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2023年10月16日
Arxiv
0+阅读 · 2023年10月12日
Arxiv
134+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
327+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员