多智能体学习(MAL)中的合作是一个跨越多个学科的主题,包括博弈论、经济学、社会科学和进化生物学。这一领域的研究旨在理解智能体如何在目标一致时有效协调以及在合作可能带来收益但冲突可能性丰富的环境中如何合作。在这篇论文中,我们提供了多智能体学习的基本概念、问题设置和算法的概述。这包括强化学习、多智能体顺序决策制定、与多智能体合作相关的挑战,以及对最近进展的全面回顾,连同相关度量标准的评估。最后,我们讨论了该领域的开放性挑战,旨在激发新的研究途径。 合作型多智能体学习(MAL)研究让多个智能体能够学习如何在共享环境中协作、适应和做出决策的算法和策略。随着多智能体系统在我们这个科技驱动的世界中变得越来越普遍,确保智能体之间有效和无缝合作的重要性也在增长。

合作型MAL自然与经济学[Zheng et al., 2021a; Johanson et al., 2022]和进化生物学[Jaderberg et al., 2019; Duéñez-Guzmán et al., 2023]等多个其他领域交叉。社会科学的其他概念,如沟通、规范和信任[Hertz et al., 2023],也扮演着重要角色。博弈论为理解智能体之间的战略互动提供了坚实的基础,包括合作和非合作决策制定[Shapley, 1953; Littman, 1994]。它的数学形式主义与经济学原理相一致,并在智能体需要最大化共享效用或在充满潜在冲突的环境中需要鼓励合作的情况下特别有用。

虽然MAL这一更广泛的领域涵盖了广泛的主题,但我们旨在关注其合作维度。随着合作型AI的势头增长(例如[Dafoe et al., 2020]),为读者提供该领域的综合理解变得尤为重要。该领域有两个主要分支:基于团队的MAL(在第4节中介绍)和混合动机的MAL(在第5节中介绍)。

在基于团队的MAL中,由于单一标量奖励信号是所有团队智能体活动的唯一反馈,因此难以有效地学习协调的联合政策。考虑当一个智能体采取有奖励的行动而另一个智能体行为不利时会发生什么。共享的标量奖励无法区分哪个智能体的行动是获得奖励的原因。这使得在这种环境中的信用分配变得困难[Claus and Boutilier, 1998; Foerster et al., 2018a; Sunehag et al., 2018]。 在混合动机设置中,存在个体奖励,这些奖励更容易从中学习。然而,这样的游戏包含许多次优平衡,这一事实导致了社会困境的产生——即个体与集体理性之间存在紧张关系的情况[Rapoport, 1974]。在MAL中,社会困境的博弈论概念已被推广到空间/时间扩展的复杂行为学习设置[Leibo et al., 2017]。这一领域已经看到了大量技术的发展,用以实现更接近人类世界所见合作的形式,因此,与社会科学和进化生物学的交集更多,后者是研究合作出现的重要课题[Duéñez-Guzmán et al., 2023]。为方便起见,我们使用“共玩者”一词来描述基于团队和混合动机设置中的其他智能体,与零和设置中的“对手”相对。 本文的结构如下所述。第2节介绍了多智能体学习的自成一体的基础知识,包括单智能体和多智能体RL、博弈论公式化。第4节考虑具有纯粹动机的合作系统。第5节讨论智能体具有混合动机的情况。第6节回顾基准和评估度量。第7节以讨论该领域的挑战和未解决的问题作为结论。

成为VIP会员查看完整内容
73

相关内容

基于人工反馈的强化学习综述
专知会员服务
64+阅读 · 2023年12月25日
大型语言模型在软件工程:调查与待解决的问题
专知会员服务
75+阅读 · 2023年10月6日
计算机视觉中的终身学习综述
专知会员服务
64+阅读 · 2023年7月13日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
多智能体协同决策方法研究
专知会员服务
126+阅读 · 2022年12月15日
面向自然语言处理的知识图谱嵌入:从理论到实践
专知会员服务
52+阅读 · 2022年10月16日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
182+阅读 · 2022年4月30日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
注意力图神经网络的小样本学习
专知会员服务
192+阅读 · 2020年7月16日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【CVPR 2020 Oral】小样本类增量学习
专知
17+阅读 · 2020年6月26日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
基于逆强化学习的示教学习方法综述
计算机研究与发展
15+阅读 · 2019年2月25日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
152+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关主题
相关VIP内容
基于人工反馈的强化学习综述
专知会员服务
64+阅读 · 2023年12月25日
大型语言模型在软件工程:调查与待解决的问题
专知会员服务
75+阅读 · 2023年10月6日
计算机视觉中的终身学习综述
专知会员服务
64+阅读 · 2023年7月13日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
多智能体协同决策方法研究
专知会员服务
126+阅读 · 2022年12月15日
面向自然语言处理的知识图谱嵌入:从理论到实践
专知会员服务
52+阅读 · 2022年10月16日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
182+阅读 · 2022年4月30日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
注意力图神经网络的小样本学习
专知会员服务
192+阅读 · 2020年7月16日
相关资讯
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【CVPR 2020 Oral】小样本类增量学习
专知
17+阅读 · 2020年6月26日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
基于逆强化学习的示教学习方法综述
计算机研究与发展
15+阅读 · 2019年2月25日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员