多智能体强化学习(MARL)理论的一个核心问题是,了解哪些结构条件和算法原理会导致样本高效学习保证,以及当我们从少数智能体转向多数智能体时,这些考虑因素会发生怎样的变化。我们在多智能体互动决策的一般框架中研究了这一问题,包括具有函数逼近的马尔可夫博弈和具有强盗反馈的正态博弈。我们的重点是均衡计算,其中集中式学习算法旨在通过控制与(未知)环境交互的多个智能体来计算均衡。我们的主要贡献如下

  • 提供了多智能体决策最优样本复杂度的上下限,其基础是决策估计系数(Decision-Estimation Coefficient)的多智能体广义化;决策估计系数是 Foster 等人(2021 年)在与我们的设置相对应的单智能体中引入的一种复杂度度量。与单智能体环境下的最佳结果相比,我们的上界和下界都有额外的差距。我们的研究表明,任何 “合理 ”的复杂性度量都无法弥补这些差距,这凸显了单个智能体与多个智能体之间的显著差异。

  • 表征多智能体决策的统计复杂性,等同于表征单智能体决策的统计复杂性,只不过奖励是隐藏的(无法观察到的),这个框架包含了部分监控问题的变体。由于这种联系,我们尽可能地描述了隐藏奖励交互决策的统计复杂性。

在此基础上,提供了几个新的结构性结果,包括:1)多智能体决策的统计复杂性可以降低到单智能体决策的统计复杂性的条件;2)可以避免所谓的多智能体诅咒的条件。

由于篇幅所限,正文对研究结果作了非正式的概述,详细说明放在附录的第 I 部分。第 II 部分给出了示例。附录组织概览见附录 A。

成为VIP会员查看完整内容
10

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《信息在多智能体决策中的作用》214页
专知会员服务
50+阅读 · 2024年11月20日
【阿姆斯特丹博士论文】优化、博弈与泛化界,208页pdf
专知会员服务
31+阅读 · 2024年11月16日
《基于信念的决策建模计算框架》141页
专知会员服务
58+阅读 · 2024年4月27日
《人类决策的量子方法》244页
专知会员服务
46+阅读 · 2024年4月25日
《利用人工神经网络进行雷达信号处理》253页
专知会员服务
65+阅读 · 2024年3月15日
【干货书】计算机科学离散数学,627页pdf
专知
63+阅读 · 2020年8月31日
【KDD2020】图神经网络:基础与应用,322页ppt
多模态深度学习综述,18页pdf
专知
49+阅读 · 2020年3月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
434+阅读 · 2023年3月31日
Arxiv
73+阅读 · 2023年3月26日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员