多智能体学习中合作的综述

多智能体学习（MAL）中的合作是一个跨越多个学科的主题，包括博弈论、经济学、社会科学和进化生物学。这一领域的研究旨在理解智能体如何在目标一致时有效协调以及在合作可能带来收益但冲突可能性丰富的环境中如何合作。在这篇论文中，我们提供了多智能体学习的基本概念、问题设置和算法的概述。这包括强化学习、多智能体顺序决策制定、与多智能体合作相关的挑战，以及对最近进展的全面回顾，连同相关度量标准的评估。最后，我们讨论了该领域的开放性挑战，旨在激发新的研究途径。合作型多智能体学习（MAL）研究让多个智能体能够学习如何在共享环境中协作、适应和做出决策的算法和策略。随着多智能体系统在我们这个科技驱动的世界中变得越来越普遍，确保智能体之间有效和无缝合作的重要性也在增长。

合作型MAL自然与经济学[Zheng et al., 2021a; Johanson et al., 2022]和进化生物学[Jaderberg et al., 2019; Duéñez-Guzmán et al., 2023]等多个其他领域交叉。社会科学的其他概念，如沟通、规范和信任[Hertz et al., 2023]，也扮演着重要角色。博弈论为理解智能体之间的战略互动提供了坚实的基础，包括合作和非合作决策制定[Shapley, 1953; Littman, 1994]。它的数学形式主义与经济学原理相一致，并在智能体需要最大化共享效用或在充满潜在冲突的环境中需要鼓励合作的情况下特别有用。

虽然MAL这一更广泛的领域涵盖了广泛的主题，但我们旨在关注其合作维度。随着合作型AI的势头增长（例如[Dafoe et al., 2020]），为读者提供该领域的综合理解变得尤为重要。该领域有两个主要分支：基于团队的MAL（在第4节中介绍）和混合动机的MAL（在第5节中介绍）。

在基于团队的MAL中，由于单一标量奖励信号是所有团队智能体活动的唯一反馈，因此难以有效地学习协调的联合政策。考虑当一个智能体采取有奖励的行动而另一个智能体行为不利时会发生什么。共享的标量奖励无法区分哪个智能体的行动是获得奖励的原因。这使得在这种环境中的信用分配变得困难[Claus and Boutilier, 1998; Foerster et al., 2018a; Sunehag et al., 2018]。在混合动机设置中，存在个体奖励，这些奖励更容易从中学习。然而，这样的游戏包含许多次优平衡，这一事实导致了社会困境的产生——即个体与集体理性之间存在紧张关系的情况[Rapoport, 1974]。在MAL中，社会困境的博弈论概念已被推广到空间/时间扩展的复杂行为学习设置[Leibo et al., 2017]。这一领域已经看到了大量技术的发展，用以实现更接近人类世界所见合作的形式，因此，与社会科学和进化生物学的交集更多，后者是研究合作出现的重要课题[Duéñez-Guzmán et al., 2023]。为方便起见，我们使用“共玩者”一词来描述基于团队和混合动机设置中的其他智能体，与零和设置中的“对手”相对。本文的结构如下所述。第2节介绍了多智能体学习的自成一体的基础知识，包括单智能体和多智能体RL、博弈论公式化。第4节考虑具有纯粹动机的合作系统。第5节讨论智能体具有混合动机的情况。第6节回顾基准和评估度量。第7节以讨论该领域的挑战和未解决的问题作为结论。