设计能够进行策略性推理并在信息不完整和对抗行为存在的情况下作出最优决策的机器,是人工智能的基本目标。在常态形式的博弈中,我们对博弈理论决策的理解已经相当先进。在这种策略性互动中,所有玩家一次性、同时地采取行动,从预定的有限集合中选择(可能是随机的)一个行动。相比之下,这篇论文关注的是更为现实的不完全信息扩展形式博弈,这是一种树形决策问题,决策者可能会面临多次决策,这些决策与观察到的关于以前的决策如何影响(部分隐藏且可能具有对抗性的)多智能体环境交错进行。本论文旨在解决这个领域已经认可的一些未解问题,并为不完全信息扩展形式博弈中的策略性、博弈理论决策提供坚实的理论和算法基础。我们强调以下贡献。

• 我们解决了长期以来的开放问题,即是否能通过有效的、非耦合的学习动态产生扩展形式的相关均衡,得出无条件的积极结果。 • 我们解决了在两人博弈中计算扩展形式完美均衡的复杂性问题,这是一个公认的开放问题,我们证明了它与纳什均衡的复杂性相匹配。 • 我们建立了具有最新 OT (log T /T) 收敛到粗相关均衡的学习动态,从而作为推论改进了常态形式博弈的已知界限。 • 我们发现了经典的乘法权重更新算法的内核化版本。这种算法引导粗相关均衡的学习动态产生了理论上最新的依赖于不完全信息博弈规模的结果。 • 我们给出了关于相关策略几何形状的基本结果,确定了新的重要博弈类别,其中最优(例如,福利最大化)的相关解决概念可以在多项式时间内计算,为扩展形式的相关性提供了积极的复杂性结果。 • 我们提供了第一个保证收敛到福利最大化相关解决概念的学习算法,并展示了它们在实证性能上的最新状态。 我们提供了最新的算法,这使得我们首次能够在具有多达五十亿终端状态的大型博弈中找到纳什均衡的精确摇摆手修正。 • 我们研究了在零和对抗团队博弈中计算最优团队策略的问题,并为这个设置提供了最新的算法和积极的复杂性结果。 • 我们提供了可以融合玩家模型的学习动态,以产生强大、适合人类的策略。这些动态是训练外交博弈人工智能的关键组成部分,外交博弈是一个涉及人类合作和竞争的7人游戏。

成为VIP会员查看完整内容
61

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
专知会员服务
49+阅读 · 2021年6月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
139+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员