《开放环境下协作多智能体强化学习研究进展综述》南大最新62页长综述

多智能体强化学习（MARL）近年来受到广泛关注，并在多个领域取得了进展。具体来说，协作式 MARL 主要是训练一个智能体团队协作完成单个智能体难以完成的任务。它在路径规划、自动驾驶、主动电压控制和动态算法配置等应用中显示出巨大的潜力。协作式 MARL 领域的研究重点之一是如何提高系统的协调效率，而研究工作主要是在简单、静态和封闭的环境设置下进行的。为了促进人工智能在现实世界中的应用，一些研究开始探索开放环境下的多智能体协调。这些工作在探索和研究重要因素可能发生变化的环境方面取得了进展。然而，主流工作仍然缺乏对研究方向的全面回顾。本文从强化学习的概念出发，随后介绍了多智能体系统（MAS）、协作式 MARL、典型方法和测试环境。然后，总结了从封闭环境到开放环境的协作式 MARL 研究工作，提炼出多个研究方向，并介绍了典型作品。最后，总结当前研究的优缺点，展望开放环境下协作式 MARL 的未来发展方向和研究问题。

图：综述框架

作为机器学习的一个分支，强化学习（RL）[1] 是解决连续决策问题的一种有效方法。与监督学习和无监督学习相比，强化学习是从交互中学习的。在 RL 的范式中，智能体与环境互动，并根据从环境中获得的奖励或惩罚不断优化自己的策略。由于与人类获取知识的方式相似，RL 被认为是实现人工通用智能（AGI）的方法之一 [2]。早期的 RL 工作依赖于将手工制作的特征输入线性模型进行值估计和近似，这种方法在复杂场景中表现不佳。近十年来，随着深度学习的蓬勃发展，深度 RL 在各个领域都取得了令人瞩目的成就[3]。例如，深度 Q 网络（DQN）[4] 在 Atari 视频游戏中超越了专业人类玩家。AlphaGo [5] 击败了围棋世界冠军李世石。AlphaStar [6] 在不完全信息实时策略游戏《星际争霸 II》中击败了顶级人类职业玩家。OpenAI Five [7] 在多人实时在线游戏 Dota 2 中表现出色。AI-Suphx[8]在多人不完全信息麻将游戏中也取得了不俗的成绩。此外，RL 的应用范围也逐渐从游戏扩展到现实生活中的各个领域，包括工业制造、机器人控制、物流管理、国防军事、智能交通、智能医疗等，极大地推动了人工智能的发展[9，10]。例如，最近受到广泛关注的 ChatGPT [11]，也是利用 RL 技术进行优化的。近年来，在将人工智能应用于科学研究（AI4Science）[12]的趋势下，RL 也在许多基础科学领域大放异彩。例如，DeepMind 通过应用 RL 实现了核聚变控制 [13]。AlphaTensor 也将 RL 应用于发现矩阵乘法 [14]。

同时，现实世界中的许多问题都具有大规模、复杂性、实时性和不确定性等特点。将这类问题表述为单智能体系统效率低下，且与实际情况不符，而将其建模为多智能体系统（MAS）[15] 问题往往更为合适。此外，多智能体协调已被应用于处理许多复杂问题，如自动驾驶汽车、智能仓储系统和传感器网络等。多智能体强化学习（MARL）[16-18] 为这些问题的建模和解决提供了强有力的支持。在 MARL 中，一个智能体团队通过与环境的交互，学习联合协作策略来解决任务。与传统方法相比，MARL 的优势在于它能够处理环境的不确定性，并在不需要过多领域知识的情况下学习解决未知任务。近年来，深度学习与 MARL 的结合取得了丰硕成果[19]，许多算法被提出并应用于解决复杂任务。然而，MARL 也带来了新的挑战。一方面，MAS 所处的环境往往是部分可观测的，个体无法从局部观测中获取全局信息。这意味着独立学习的智能体很难做出最优决策[20]。另一方面，由于其他智能体也在同时学习，因此策略也会随之改变。从单个智能体的角度来看，环境是非稳态的，收敛性无法保证[21]。此外，协作式 MAS 往往只能获得共享奖励，如何分配这些奖励，为每个智能体提供准确的反馈（又称学分分配），从而实现协作的高效学习，最终实现系统性能的最大化，也是关键难题之一[22]。最后，随着 MAS 中智能体数量的增加，解决 RL 问题所面临的搜索空间将呈指数级扩大，使得策略学习和搜索变得异常困难，带来了可扩展性问题。因此，组织高效的策略学习也是当前的一大挑战[23, 24]。

为应对上述挑战，目前正在从多个方面开展大量工作，并在许多任务场景中取得了令人惊喜的成就[18]。在路径规划[25]、主动电压控制[26]和动态算法配置[27]等任务中，与传统方法相比，协作式 MARL 表现出更优越的性能。研究人员设计了许多算法来促进智能体之间的协作，其中包括基于策略梯度的方法，如 MADDPG [28] 和 MAPPO [29]；基于价值的方法，如 VDN [30] 和 QMIX [31]；以及其他利用变压器强大的表达能力来增强协调能力的方法，如 MAT [32]。这些方法在 SMAC [33]、Hanabi 和 GRF [29] 等许多任务中都表现出了出色的协作能力。除了上述方法及其各自的变体外，研究人员还从其他角度对协作式 MARL 进行了深入的探索和研究，包括通过高效通信缓解分布式策略执行设置下的部分可观测性 [20]、策略的离线部署 [34]、MARL 中的世界模型学习 [35] 以及训练范式研究 [36]。

传统的机器学习研究通常是在经典的封闭环境假设下进行的，学习过程中的关键因素保持不变。如今，越来越多的任务，尤其是涉及开放环境场景的任务，可能会经历基本学习因素的变化。显然，从传统环境过渡到开放环境给机器学习带来了巨大挑战。对于数据驱动型学习任务而言，开放环境中的数据会随着时间的推移在线积累，例如以数据流的形式积累，这使得模型学习更具挑战性。开放环境下的机器学习[37, 38]在很多场景中都有应用前景，逐渐引起了广泛关注。目前开放环境下机器学习的研究包括类别变化、特征演化、数据分布变化和学习目标变化等。相应地，RL 领域的一些研究也开始关注开放环境中的任务。主要研究领域包括可信 RL [39]、环境生成和策略学习 [40]、持续 RL [41]、RL 泛化能力 [42]、元 RL [43] 和模拟到现实的策略转移 [44]。

与单智能体强化学习（SARL）相比，多智能体场景更为复杂，更具挑战性。目前，有关开放环境中协作式 MAS 的研究还很有限，一些工作主要集中在多智能体环境下的鲁棒性[45]。这些著作从不同角度描述了问题并提出了算法设计[46-49]。此外，针对开放团队 MARL 所面临的挑战，一些著作引入了 Ad-Hoc Teamwork (AHT)、Zero-Shot Coordination (ZSC) 和 Few-Shot Teamwork (FST) 等设置来解决这一问题 [50-52]。虽然这些研究在某些任务场景中取得了成功，但它们仍然不能很好地与现实世界中的大多数应用相匹配，因此在实际效果方面还有很大的改进空间。关于 MARL，目前存在一些综述性著作，如关于多智能体系统 [15]、MARL [16,53-58]、多智能体场景中的智能体建模 [59]、多智能体设置中的非稳态处理 [21]、多智能体迁移学习 [60]、协作式MARL [17,61,62]、基于模型的多智能体学习 [35]、因果 MARL [63] 和多智能体通信 [20]。此外，一些著作对开放式机器学习进行了全面分析[37, 38, 64]。虽然上述著作对 MARL 或开放环境机器学习的各个方面进行了综述和总结，但目前还没有专门针对开放环境中协作式MARL 的系统综述。考虑到协作式 MARL 在解决实际环境中复杂协调问题方面的潜力和价值，本文旨在介绍该领域的最新进展。本文的后续安排如图 1 所示。我们首先介绍与本文相关的背景，包括 RL 的基本知识、MAS 与 MARL 的常识和背景。接下来，我们介绍经典封闭环境中的协作式 MARL，包括具体定义、当前主流研究内容以及常见测试环境和应用案例。紧接着，我们介绍开放环境中的协作式 MARL，具体包括从封闭式机器学习、强化学习到协作式多智能体场景的常见研究方向和内容。最后，总结了本文的主要内容，对开放环境中的协作式 MARL 进行了展望，希望能对该方向的进一步研究和探索有所启发。

经典环境下的协作多智能体强化学习

表 1 总结了经典环境中各研究方向的核心内容、代表性算法、应用或成果。包括：算法框架设计、协作式多智能体开发、多智能体通信、智能体建模、策略模仿、基于模型的MARL、多智能体分层强化学习与技能学习、协同多智能体强化学习拓扑结构学习、

开放环境下的协作多智能体强化学习

一些研究从特定角度对开放环境中的 MARL 进行了描述。在开放式 MAS 中，由于智能体在协调过程中的加入或离开，系统的组成和规模可能会随时间发生变化 [391]。

经典的 MARL 算法主要解决训练过程中队友策略优化导致的非稳态性以及探索和发现有效协调模式等问题。这些方法虽然能有效提高样本效率和合作能力，但没有考虑到现实世界 MAS 和环境因素变化的问题。以前面提到的开放式 MAS 为例，由于队友行为风格的变化，经典 MARL 算法生成的智能体会根据历史信息做出决策。它们无法及时感知队友行为方式的变化，导致其适应能力存在一定的滞后性，极大地影响了合作绩效。

在以往的工作中，研究主要集中在开放情况下的多智能体规划，产生了许多相关的问题设置，如开放式分散部分可观测马尔可夫决策过程（Open DecPOMDP）[392]、团队-POMDP [393, 394]、I-POMDP-Lite [371, 395]和 CI-POMDP [396]。最近，一些工作开始考虑开放 MARL 问题。GPL [373] 将开放式临时团队合作问题形式化为开放式随机贝叶斯博弈（OSBG），假定全局可观测性以提高效率。然而，在现实世界中实施该方法具有挑战性。此外，它使用了一种基于图神经网络的方法，仅适用于单一可控智能体设置，因此要扩展到多个可控智能体具有挑战性。最近的研究 [397] 提出了一种开放式 MAS OASYS，用于描述开放式 MAS。

虽然上述著作从特定角度深入研究了开放环境中的 MARL，但其关注点相对狭窄，存在一定的局限性。缺乏对整个研究领域的全面概述。我们认为，合作式 MAS 要想应用于复杂的开放现实世界场景，就必须具备应对环境因素（状态、行动、奖励函数等）变化、协调模式（队友、对手）变化以及以数据流形式出现的任务的能力。这种能力应主要包括以下几个方面：

在策略训练和演化过程中，系统应具备离线策略学习能力、具有迁移和泛化能力的策略、支持持续学习的策略，以及系统应具备演化和适应能力。
在部署过程中，策略应能应对环境因素的变化，特别是在状态、观测、行动、环境动态和通信环境发生变化时，要表现出强大的合作能力。
在现实世界的部署中，考虑因素应包括多目标（约束）策略优化、风险感知以及面对真实、高动态任务场景的评估能力。
经过训练的策略在部署时应具有自组织合作能力，并应具有零（或很少）镜头适应能力。此外，它们还应支持人类智能协调，赋予 MAS 为人类服务的能力。
最后，考虑到各种多智能体合作任务的异同，为每类任务学习策略模型往往会产生高昂的成本和资源浪费。策略应具有涵盖各种多智能体合作任务的能力，类似于 ChatGPT。

在此基础上，本节将对这十一个方面的相关工作进行回顾和比较，介绍当前研究的主要内容和存在的问题，以及未来值得探索的方向。

1 离线协作多智能体强化学习

离线强化学习[398, 399]最近引起了相当多的研究关注，其重点是无需与环境交互的数据驱动训练范例[399]。以前的工作 [400] 主要解决离线学习中的分布转移问题，考虑学习行为受限策略，以减轻估计未见数据时的外推误差 [401-403]。离线 MARL 是一个相对较新且前景广阔的研究方向 [404]，它从静态数据集中训练合作策略。一类离线 MARL 方法试图从带有策略约束的离线数据中学习策略。ICQ [341] 通过只信任离线数据，有效地减少了 MARL 中的外推错误。MABCQ [342] 为离线 MARL 引入了全分布式设置，利用值偏差和转移归一化等技术实现高效学习。OMAR [405] 结合了一阶策略梯度和零阶优化方法，以避免不和谐的局部最优。MADT [344] 利用 Transformers 强大的顺序建模能力，将其与离线和在线 MARL 任务无缝集成。文献[343]研究了离线 MARL，明确考虑了智能体轨迹的多样性，并提出了一种名为共享个体轨迹（SIT）的新框架。文献[406]提出先训练一个教师策略，获取每个智能体的观察结果、行动和奖励。在确定并收集数据集中的 "好 "行为后，创建学生个体策略，并通过知识提炼赋予教师策略的特征与智能体之间的结构关系。ODIS[34]介绍了一种新型离线 MARL 算法，用于从多任务数据中发现合作技能。文献[249]最近发布了用于生成离线 MARL 数据集和算法评估的离网 MARL（OG-MARL）框架。M3 [407]创新性地引入了多任务和多智能体离线预训练模块的思想，以学习更高层次的可转移策略表征。OMAC [345] 提出了一种基于耦合值分解的离线 MARL 算法，将全局值函数分解为局部和共享组件，同时保持全局状态值和 Q 值函数之间的信用赋值一致性。

2 协作策略转移与泛化

迁移学习被认为是提高 RL 算法采样效率的重要方法 [408]，其目的是在不同任务中重复使用知识，加速智能体在新任务中的策略学习。多智能体场景中的迁移学习 [60] 也引起了广泛关注。除了考虑任务间的知识重用，一些研究人员还关注智能体之间的知识重用。其基本思想是让一些智能体有选择地重用其他智能体的知识，从而帮助整个 MAS 实现更好的合作。DVM [409]将多智能体问题建模为多任务学习问题，将不同任务之间的知识结合起来，并通过价值匹配机制对这些知识进行提炼。LeCTR[347]在多智能体场景中开展了策略教学，引导一些智能体指导另一些智能体，从而促进整体上更好的策略合作。MAPTF[348]提出了一种基于选项的策略传递方法，以协助多智能体合作。

另一方面，多智能体任务间的策略重用方法强调重用旧任务的知识和经验来辅助新任务的策略学习，侧重于不同任务间的知识转移。与单智能体问题相比，在不同规模的多智能体任务中，环境状态（观测值）的维度可能不同，这给任务间的策略转移带来了挑战。具体而言，DyMACL[410]设计了一种与智能体数量无关的网络结构，并引入了一系列基于课程学习的传递机制，以加速多智能体场景下合作策略的学习过程。EPC[349]提出了一种基于进化算法的多智能体课程学习方法，帮助群体实现复杂场景下的合作策略学习。UPDeT[411]和PIT[412]利用变压器网络的广义性解决了环境输入维度变化的问题，有助于智能体群体间的高效合作和知识转移。这些关于多智能体转移学习的相关作品为任务间的知识转移提供了启发，但它们并没有明确考虑任务间的相关性，如何利用任务相关性实现更高效的知识转移仍是一个开放的研究课题。MATTAR [351] 解决了合作策略模型适应新任务的难题，并提出了一种基于任务关系的策略转移方法。文献[413]考虑使用横向转移学习来促进 MARL。文献[350]进一步关注设计算法以增强 MARL 的泛化能力。

3 多智能体强化学习与持续协调

持续学习、增量学习和终身学习是相互关联的，前提是任务或样本按顺序出现 [414]。近年来，持续 RL [41, 415] 受到了一些关注。在这种情况下，智能体面临的挑战是在将知识从旧任务转移到新任务时避免灾难性遗忘（也称为稳定性-可塑性困境 [416]），同时保持对大量任务的可扩展性。研究人员提出了各种方法来应对这些挑战。EWC [417] 使用基于 l2 距离的权重正则化来限制当前模型参数与之前学习到的模型参数之间的差距，需要额外的监督来选择特定的 Q 函数头，并为不同的任务场景设置探索策略。CLEAR [418] 是一种与任务无关的持续学习方法，在持续学习过程中不需要任务信息。它保留了一个大的经验重放缓冲区，并通过对过去任务的数据采样来解决遗忘问题。其他方法，如 HyperCRL [419] 和 [420] 则利用学习到的世界模型来提高学习效率。为了解决任务繁多的场景中的可扩展性问题，LLIRL [421] 将任务空间分解为多个子集，并使用中餐馆流程来扩展神经网络，从而提高了持续 RL 的效率。OWL [422] 是最近一种基于多头架构的高效方法。CSP [423] 逐步构建策略子空间，在一系列任务上训练 RL 智能体。另一类解决可扩展性问题的方法是基于 Packnet [424] 的思想，将任务信息依次编码到神经网络中，并修剪相关任务的网络节点。关于多智能体设置中的持续学习问题（图13），文献 [352] 通过引入基于 Hanabi 的多智能体学习试验平台，研究了智能体能否与未知智能体合作。不过，它只考虑了单模式任务场景。MACPro [353] 提出了一种通过渐进式任务情境化实现多个智能体之间持续协调的方法。它使用共享特征提取层获取任务特征，但采用独立的策略输出头，每个策略输出头针对特定类别的任务做出决策。Macop [354] 赋予 MAS 持续协调能力，开发了一种基于不兼容队友进化和高兼容性多智能体合作训练范式的算法。在队友在轮内和轮间切换的各种测试环境中，提出的方法可以快速捕捉队友身份，与各种比较方法相比，即使在未知场景中，也表现出更强的适应性和泛化能力。

4 多智能体进化强化学习

进化算法 [425] 是一类模拟自然进化过程的启发式随机优化算法，包括遗传算法、进化策略、粒子群算法等（图 14）。尽管有许多变种，但在解决问题时，其主要思想仍然是一致的。首先，通过随机抽样产生若干个体作为初始种群，从而初始化一个种群。其余过程可抽象为由三个主要步骤组成的循环。在当前种群的基础上，使用交叉和突变等算子产生子代个体；评估子代个体的适配性；根据优胜劣汰原则，淘汰部分个体，剩余个体构成新一代。以往的研究 [216] 揭示了进化算法在解决子集选择问题方面的巨大潜力。进化算法在多智能体领域也有广泛的应用[426]，如α-Rank[427]以及后续许多利用进化算法优化和评估 MAS 的著作。

在合作任务方面，进化算法发挥了重要作用。文献[428]考虑了多智能体机器人系统中的分布式配置问题，通过模糊系统和进化算法对系统进行优化，以提高合作性能。MERL [355] 设计了一个分层训练平台，通过两个优化过程解决两个目标。进化算法通过进化团队种群来最大化基于稀疏团队的目标。与此同时，基于梯度的优化器训练策略，使特定智能体的奖励最大化。BEHT [356] 将高质量的多样化目标引入 MAS，以解决异构问题，有效提高了系统的通用性。MCAA[357]和一些后续研究[429, 430]考虑通过进化学习改进非对称 MAS。EPC[349]通过群体进化增强了 MAS 的泛化和转移能力。ROMANCE[358]和MA3C[171]利用群体进化生成对抗性攻击者，协助训练合作式人工智能系统，从而获得稳健的策略。

5 多智能体强化学习中的稳健协作

近年来，RL 中的鲁棒性研究受到了广泛关注，并取得了重大进展 [431]。鲁棒性研究的重点包括对 RL 中智能体各方面的扰动，如状态、奖励和行动。其中一类方法引入了辅助对抗攻击者，通过在使用的策略和对手系统之间交替进行对抗训练来实现鲁棒性[432-435]。其他方法则通过在损失函数中设计适当的正则化项来增强鲁棒性[436-438]。与对抗训练相比，这些方法能有效提高样本效率。不过，这些方法在噪声水平和策略执行之间的鲁棒性方面缺乏可认证的鲁棒性保证。针对这一问题，人们提出了几种可验证的鲁棒性方法 [361, 439-441]。

目前，有关 MARL 稳健性的研究已开始引起人们的关注 [45]。主要挑战在于，与单智能体系统相比，MAS 需要考虑更多因素，包括智能体之间复杂互动产生的非平稳性[21]、信任分配[22]、可扩展性[24]等。早期的工作旨在研究合作策略是否表现出稳健性。例如，针对使用 QMIX 算法训练的合作策略，文献[442]使用 RL 训练了一个攻击者来对抗观察结果。随后，文献[45]对 QMIX 和 MAPPO 等典型 MARL 算法的奖励、状态和行动进行了全面的鲁棒性测试。结果进一步证实了 MAS 易受攻击，强调了研究鲁棒 MARL 的必要性和紧迫性。最近在增强 MARL 鲁棒性方面取得的进展包括：重点学习鲁棒合作策略，以避免过度适应特定队友 [46] 和对手 [443]。与鲁棒 SARL 相似，R-MADDPG [47] 解决了 MAS 模型的不确定性问题，建立了模型不确定性下的鲁棒纳什均衡概念，并实现了多种环境下的最优鲁棒性。针对 MAS 内部分智能体行动受扰动的问题，文献[48]引入启发式规则和相关均衡理论，学习 MAS 的鲁棒合作策略。多智能体通信的鲁棒性近年来也受到关注。文献[444]设计了一种基于高斯过程的滤波器，以从噪声通信中提取有价值的信息。文献[445]在神经网络层面研究了多智能体通信系统的鲁棒性。文献[49]将多智能体通信建模为双人零和博弈，并应用 PSRO 技术学习鲁棒通信策略。ARTS [446] 和 RADAR [447] 等著作考虑了 MAS 的恢复能力，研究了面对环境变化时合作 MARL 任务的恢复能力。

最近，针对动态变化环境中合作鲁棒性的挑战，文献[358]提出了 ROMANCE 算法，这是一种针对进化辅助对抗攻击者的鲁棒合作算法。文献[169]介绍了通过群体对抗训练实现对抗鲁棒多智能体通信训练的 MA3C 框架。文献[171]从多视角信息的角度提出了可验证鲁棒通信的 CroMAC 方法。文献[359]讨论了关于扰动多智能体观测的研究，文献[448]考虑了在 MAS 中学习对抗状态攻击的鲁棒策略。

6 多目标（约束）协作多智能体强化学习

多目标优化 [449] 是指优化问题中存在多个目标函数，需要同时考虑每个目标的最优解。

在多目标优化问题中，不同的目标函数之间可能会产生冲突，也就是说，改善一个目标函数可能会导致另一个目标函数的恶化。因此，需要在不同的目标函数之间取得平衡，找到一个折中点，也就是帕累托最优解集。

在 RL 中，经常使用多目标优化。例如，在多目标 RL 中，智能体需要学习跨多个目标的帕累托最优策略 [450-453]。同样，在 MARL 中，一些研究引入了多目标学习问题，一般建模为多目标 MAS（MOMAS）[454]，其中不同目标的奖励函数可能会发生冲突。文献[455]考虑了 MAS 中个人偏好与共同目标之间的关系，并将其建模为多目标问题。结果表明，混合处理方法比只考虑单一目标能取得更好的效果。文献[456]探讨了交流和承诺如何帮助多智能体在具有挑战性的环境中学习适当的策略。文献[457]探讨了一般博弈问题中的多目标对手建模问题，通过多目标加速策略学习。

从另一个角度看，最近的工作主要集中在单智能体安全 RL [458, 459] 和多智能体安全 RL [274]。RL 设置中的这些受限问题可以建模为受限马尔可夫决策过程（CMDP）。在 MARL 方面，文献 [274] 为多代理任务提出了安全 MAMuJoCo、安全 MARobosuite 和安全 MAIG 等测试环境。他们进一步提出了安全 MARL 算法 MACPO 和 MAPPO-Lagrangian。文献[460]研究了受约束马尔可夫博弈中的在线安全 MARL，在这种博弈中，智能体通过最大化其预期总效用进行竞争，同时约束预期总奖励。文献[461]研究了安全 MARL，其中智能体试图共同最大化局部目标之和，同时满足各自的安全约束。CAMA [360] 探讨了多智能体协调中的安全问题。文献[462]考虑了 MAS 在状态受到扰动时的鲁棒性和安全性问题。此外，一些研究还考虑了基于屏障保护的 MARL 中的安全问题 [206,362,363]，或将 MAS 中的安全问题与控制技术结合起来 [361,463]。

7 风险感知多智能体强化学习

近年来，分布式 RL 在多个领域取得了重大进展 [464]。经典的基于价值的 RL 方法试图使用预期值（用价值函数 V (s) 或行动价值函数 Q(s,a)表示）来模拟累积回报。然而，在这一建模过程中很大程度上会丢失完整的分布信息。分布式 RL 旨在通过对代表累计收益的随机变量的分布 Z（s，a）建模来解决这一问题。这类方法也适用于多智能体合作任务。为了缓解局部可观测性造成的环境随机性，DFAC [364] 将单个智能体的回报函数从确定性变量扩展为随机变量。它将 QMIX 类型算法的混合函数建模为分布混合函数，在各种具有挑战性的任务中取得了出色的合作效果。此外，为了缓解多智能体合作任务中奖励函数的随机性带来的不确定性，RMIX [365] 利用基于风险的分布式技术，如风险条件值（CVaR），增强了算法的合作能力。该算法创新性地引入了基于智能体轨迹相似性的风险评估，理论依据和实验结果验证了其有效性。ROE [160] 从另一个角度提出了一种基于风险的乐观探索方法。该方法对分布进行选择性采样，有效提高了 MAS 的探索效率。

除上述基于分布的多智能体合作算法外，其他著作还进行了多方面的探索，如基于价值分布的奖励评估[366]、一般博弈问题中的高效自适应多智能体策略学习[368]、多智能体学习过程中的风险解耦学习[367]、基于博弈论的风险管理[369]等。虽然这些工作在不同环境下取得了一定的成果，但考虑到真实环境中的未知风险，探索如何在真实环境中部署多智能体策略，自动识别环境风险，并据此调整合作策略是未来的研究方向之一。

8 自组织团队合作

自组织团队合作（AHT）[50] 旨在赋予智能体与未经训练的智能体高效合作的能力，创造出能够与之前未知的队友进行有效、稳健协调的自主智能体[370]。早期的研究假设学习型智能体了解队友的合作行为 [370,465]。后来的研究逐渐放宽了这一假设，允许自主学习智能体在交互过程中不知道队友的行为。有些方法设计了算法，通过观察队友的行为来预测相应队友的策略，从而促进 AHT 中的协调 [466-469]。还有一些研究试图通过有效的交流方法来加强 AHT 中队友之间的合作 [470]。虽然这些方法在一定程度上提高了协调性能，但它们假定合作队友处于封闭环境中，在单一轨迹中保持队友数量和类型的恒定。为解决这一局限性，有人提出并研究了开放式 AHT [371]，其中 GPL [373] 通过图神经网络处理不同时间点队友类型和数量的变化。

早期的 AHT 工作一般考虑全局可观测环境中的智能体。最近的工作将这一设置扩展到了具有局部可观测场景的场景。ODITS [372] 使用互信息优化正则化来评估其他队友的行为，使训练有素的智能体能从局部观察中推断队友的行为。与之前的研究不同，本文提出了一种方法来解决部分可观测场景中的开放式临时团队合作问题[471]。TEAMSTER [376] 提出了一种将世界模型学习与队友行为模型学习分离的方法。此外，一些研究还探讨了各方面的问题，包括有攻击者的 AHT 问题 [472]、少量交互协调 [52] 以及 AHT 中队友生成覆盖范围 [374, 375] 等。

9 零（少）次协调

零次协调（Zero-shot coordination，ZSC）是近年来针对合作型多智能体任务提出的一个概念，旨在训练智能体与看不见的队友合作[51]。自我博弈 [473, 474] 是有效提高协调能力的一种手段，即智能体通过自我协调不断增强协调能力。然而，以这种方式生成的智能体可能缺乏与不可见队友协作的能力。文献[475]进一步完善了这一问题，包括引入与序列无关的训练方法来缓解次优问题。为了解决单个队友训练可能导致的对特定队友行为风格的过度拟合，其他方法也取得了成功，如虚构合作游戏（FCP）[377,476] 和队友群体共同进化[379]。一些研究利用寥寥几笔的技术来应对多模式场景，并取得了成效[353,380]。最近的研究 [477] 根据合作队友的行动偏好，评估并量化了各种 ZSC 算法的能力。

除此以外，ZSC 研究还包括多样性度量[378,478]、训练范例设计[377,379,475]、等变量网络设计[479]、基于策略相似性评估的协调增强[480]、ZSC 问题的一般场景[481]、基于集合技术的 ZSC 改进[481]、人类价值偏好研究[382]、多样化队友生成[381]以及异构环境中的策略协同进化[379]。此外，少量适应在单智能体元 RL [482-484] 中得到了广泛应用，而少量团队合作（FST）[52] 则探索生成能在未知但相关的任务中进行适应和协作的智能体。CSP[380]考虑了多模式合作范式，并开发了一种解耦合作与探索策略的少量协作范式，它在策略执行过程中收集少量样本，以找到最优策略头。文献[383]的研究发现，当前具有性能竞争力的 ZSC 算法在面对不同的学习方法时，需要相当多的样本来适应新的队友。因此，他们提出了一种少量协作方法，并在 Hanabi 上验证了该算法的有效性。Macop[354]考虑了回合间合作对象变化下策略的适应性，提出了一种对任意队友高度兼容的协作算法，显著提高了协作算法的泛化能力，显示出惊人的协调效果。

10 人-人工智能协作

实现智能体（机器人）与人类之间高效协作的能力一直是人工智能领域的长期目标[485, 486]。人机协调的概念 [258] 与人机交互（HAI）[487] 或人机交互（HRI）[488] 有关。人与智能体协调的目的是加强人类参与者与智能体之间的协作，以完成特定任务。合作式 MARL 具有强大的问题解决能力，可用于提高不同人类参与者的人机协调能力。

与前面提到的 ZSC 问题不同，人类-人工智能协调将人类参与者视为合作实体。尽管研究表明，在某些环境下，智能体或许有可能在没有人类数据训练的情况下与真人协作[377]，但在人类行为的细微特征对任务产生关键影响的场景中，没有人类数据就不可能生成有效的协作策略。对于要训练的智能体来说，一种方法是通过先验偏差直接将队友与人类行为风格进行编码 [475, 489, 490]。另一种方法是利用从与真人互动中收集到的数据对智能体进行不同程度的训练。一些方法将基于先验偏差的人类行为手工编码与利用人类互动数据优化智能体结合起来 [491-493]。

然而，这些方法对测试过程中的人类行为模式做了很强的假设，而这些假设往往是不现实的。针对这一问题，出现了一系列方法来学习人类行为模型并计算出最佳响应，从而促进人类与人工智能的协调[384]。在人类辅助协作领域，一些方法正在探索其他视角，如研究人类偏好的任务场景[382]、通过离线数据促进人机协调[385]、开发人机相互合作技术[386]、探索人机协调中的领导和跟随技术[494]、零镜头人机协调[495]、基于贝叶斯优化的人机协调[496]以及建立人机协作环境[497]。虽然这些工作在人类辅助协作方面取得了一些进展，但在这个方向上仍存在一些挑战。例如，缺乏方便有效的测试环境；大多数工作主要是在《Overcooked》[258]上进行的，其智能体数量有限，场景过于简单。此外，一些研究主要在第三方非开源环境（如定制机械臂）中进行验证，这给开发适合各种任务要求和人类参与者的多功能测试环境以及设计更高效的算法带来了挑战。另一方面，人类价值一致性[498,499]和人类在环训练[500]等方法可能是未来解决这些问题的潜在方案。

11 使用大型语言模型进行多智能体合作强化学习

近年来，大型模型，尤其是大型语言模型[501]的开发在各个领域得到了广泛的关注和应用。最近的一些研究工作正在探索通用决策大型模型[502, 503]，并将其应用于不同的情境中。在 SARL 任务中，GATO [504]、DreamerV3 [505] 和 DT [506] 等研究工作在许多任务场景中取得了令人惊喜的成果。这些作品利用了现有技术强大的表达能力，如 Transformer [96, 507]。另一方面，最近的一些工作正试图为 MAS 学习通用的大型决策模型。例如，MADT [344] 通过提供大规模数据集来促进研究，并探索了 DT 在 MARL 环境中的应用。MAT [32] 研究了一种有效的大模型方法，将 MARL 转化为单智能体问题，旨在将智能体的观察序列映射为最优行动序列，与传统方法相比，在多任务场景中表现出更优越的性能。针对多智能体环境下的实体信息，文献[388]提出了 MAGENTA，这是一项与以往时间序列建模正交的研究。MADiff [389] 和 DOM2 [508] 为 MARL 引入了生成扩散模型，促进了各种场景下的协作。SCT [509]利用变形模型加速了多智能体在线适应。文献[510]构建了一个仿人多智能体环境 "西部世界"，用于模拟和测试大规模场景中的 MAS。

此外，随着以 ChatGPT 为代表的大型语言模型的发展，一些作品试图通过语言模型促进多智能体协作。例如，EnDi [511] 使用自然语言来增强 MAS 的泛化能力。InstructRL [512] 允许人类通过自然语言指令获得所需的智能体策略。SAMA [390] 提出了语义对齐的多智能体协作，利用预先训练好的语言提示自动为 MAS 分配目标，在各种场景中取得了令人印象深刻的协作效果。HAPLAN [115] 利用 ChatGPT 等大型语言模型来弥补人类与人工智能之间的差距，从而实现高效协作。ProAgent [513] 引入了一个高效的人机协作框架，利用大型语言模型进行队友行为预测，在人机协作任务中取得了最佳协作性能。另一方面，一些著作应用多智能体协作方法来增强大型语言模型的能力[514-516]。然而，由于复杂交互等原因，多智能体通用决策大型模型领域目前探索较少。学习一个通用的多智能体决策大模型，可以在各种场景下零投篮或少投篮进行泛化，或通过微调快速适应新任务等挑战值得研究。

总结与展望

本文重点关注协作式 MARL 的开发和研究，从传统的封闭环境发展到与现实世界应用相一致的开放环境。它全面介绍了强化学习、多智能体系统、多智能体强化学习以及合作多智能体强化学习。本书总结了不同的研究方向，提炼并浓缩了经典环境中 MARL 的研究重点。尽管许多基于封闭世界假设的封闭环境 MARL 算法取得了成功，但它们在现实世界中的应用仍然有限。造成这种限制的主要原因是缺乏对开放环境特征的针对性研究。当前的方法与日常生活中的实际授权之间存在着巨大差距。为了克服开放环境的复杂性、动态性和众多限制因素所带来的挑战，合作式 MARL 的未来研究可以从以下几个方面着手。这将引发人们对开放环境中的多代理协调问题的更多关注和探索，使合作式 MAS 在现实世界中得到更好的应用，从而改善人类生活。

经典封闭环境下多智能体协调问题的解决方案：经典环境中的多智能体合作强化学习算法是过渡到开放环境的基础。提高封闭环境中的协调性能可增强这些系统更广泛的应用潜力。然而，在拥有众多智能体的大规模场景中，挑战依然存在，例如高效的策略优化 [517]，以及在训练和执行过程中平衡分布式和集中式之间的关系。这些问题需要在未来的研究中认真考虑和解决。
开放环境中的理论分析和框架构建：与封闭环境相比，开放环境的条件更加严格，挑战也更大。虽然有些研究利用启发式规则来设计机器学习环境的开放性[38]，但建立一个全面的框架，包括明确定义多智能体协调的开放性概念、环境开放性的定义以及算法的性能边界，是未来研究的重要领域。
为开放环境中的协作式 MAS 构建测试环境：尽管目前正在研究开放环境中合作式 MARL 的鲁棒性，但基准测试通常涉及在经典封闭环境中进行修改。这些方法缺乏兼容性，无法应对不同开放式场景带来的各种挑战。未来的研究可侧重于构建可评估已确定的 11 个方面的测试环境，从而极大地推动开放环境中合作式 MAS 的研究。
为开放环境中的多智能体系统开发通用决策大型语言模型：大型模型，尤其是大型语言模型[501]，在各个领域都得到了关注和应用。一些著作探索了多智能体环境下的决策大型语言模型[503,518]，然而在研究方面仍有相当大的差距。未来的研究可以集中在学习通用的大型语言决策模型，以适应不同的任务场景，实现零泛化或少量泛化，或通过微调快速适应未知任务领域。
协作多智能体强化学习在现实世界场景中的应用与实现：虽然 MARL 在经典环境中的高效合作性能具有巨大的应用潜力，但大多数研究仅限于在模拟器或特定任务场景中进行测试 [519]。这与现实世界的社会应用和当前需求仍有相当大的距离。开放环境中的合作式 MARL 研究的主要目标仍然是将算法应用于人类生活，促进社会进步。未来，探索如何在大规模自动驾驶、智慧城市、海量计算资源调度等领域安全高效地应用 MARL 算法是一个值得探讨的课题。

成为VIP会员查看完整内容

经典环境下的协作多智能体强化学习

开放环境下的协作多智能体强化学习

总结与展望

相关内容