【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

决策制定无处不在，一些问题由于其序列性质变得特别具有挑战性，即后续决策取决于早期决策。虽然人类一直在努力解决顺序决策问题，但现代计算和机器学习技术是需要找到最优决策规则。一种流行的方法是强化学习（RL）视角，其中，代理通过基于其行动接收奖励来学习最优决策规则。在存在多个学习代理的情况下，顺序决策制定问题变成顺序博弈。在这种设置下，学习目标从找到最优决策规则转变为找到纳什均衡，即没有代理可以通过单方面切换到另一决策规则来增加他们的奖励。为了处理问题的顺序性质和其他学习代理的存在，多代理RL任务需要的数据比监督学习和单一代理RL任务更多。因此，样本效率对多代理RL的成功至关重要。

在这篇论文中，我研究了序列博弈中学习的最基本问题：1.（下界）在序列博弈中找到纳什均衡需要多少样本，无论使用什么学习算法？2.（上界）如何设计具有严格样本复杂性保证的（计算上）高效学习算法？当上界和下界相互匹配时，实现了（极小极大）最优学习。结果显示，利用序列博弈的结构是实现最优学习的关键。在这篇论文中，我们研究了两种类型的序列博弈的近乎最优学习：1.（马尔科夫博弈）所有代理可以观察到潜在的状态（第2章），2.（广泛形式博弈）不同的代理可以在给定相同状态的情况下具有不同的观察结果（第5章）。为了实现近乎最优学习，将引入一系列新颖的算法思想和分析工具，例如1.（自适应不确定性量化）对值函数估计进行尖锐的不确定性量化，以设计近乎最优的探索奖励（第3章），2.（认证策略）对历史策略进行非均匀和分阶段的重新加权，以产生近似纳什均衡策略（第4章），3.（平衡探索）根据子树的大小实现博弈树的最优探索（第6章），4.（对数分区函数重表述）将经典算法重新解释为计算对数分区函数的梯度（第7章），这可能具有独立的兴趣。

成为VIP会员查看完整内容

相关内容

麻省理工学院 (MIT)

关注 102

麻省理工学院（Massachusetts Institute of Technology，MIT）是美国一所研究型私立大学，位于马萨诸塞州（麻省）的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉，该校的工程系曾连续七届获得美国工科研究生课程冠军，其中以电子工程专业名气最响，紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。

【ETH博士论文】基于离散优化的学习，193页pdf

专知会员服务

44+阅读 · 2023年9月17日

【剑桥大学博士论文】机器学习中的分布外泛化，214页pdf

专知会员服务

86+阅读 · 2023年9月13日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

【CMU博士论文】在资源受限的情境下探索语言结构化预测, 228页pdf

专知会员服务

25+阅读 · 2023年8月5日