具身多智能体系统(EMAS)因其在物流、机器人等领域解决复杂现实问题的潜力,吸引了越来越多的关注。近期基础模型的进展为生成型智能体提供了更丰富的沟通能力和自适应问题解决能力,开辟了新的方向。本综述系统性地探讨了EMAS如何从这些生成型能力中受益。我们提出了一个分类法,通过系统架构和具身方式对EMAS进行分类,重点强调协作如何跨越物理和虚拟环境。接着,我们分析了感知、规划、沟通和反馈等核心构件,展示了生成技术如何增强系统的鲁棒性和灵活性。通过具体实例,我们展示了将基础模型集成到具身多智能体框架中的变革性影响。最后,我们讨论了挑战和未来发展方向,强调了EMAS在重塑人工智能驱动协作领域的巨大潜力。
具身多智能体系统(EMAS)因其在智能交通、物流和制造等领域的巨大潜力,吸引了越来越多的关注 [YJ+13, IS+18]。通过将物理具身(从自动驾驶车辆到机器人操作臂)与多智能体系统(MAS)[DKJ18] 集成,EMAS 提供了一种去中心化、协作的方法,能够高效地处理复杂任务。尽管这些优势显而易见,但设计和实现有效的 EMAS 仍然是一项非凡的挑战,通常需要对控制论的专业知识、广泛的训练数据以及精心设计的强化学习范式 [LB08, OD23]。 在传统的 MAS 中,智能体通过分配责任、共享状态信息并共同适应动态环境来协作 [DKJ18]。虽然这些原则在某些特定领域取得了显著成功,但传统方法在以下方面面临关键的局限性:难以推广到新任务 [MS+22],难以扩展到大规模的智能体群体 [CTE+22],以及应对突发环境变化 [WR04]。这些方法通常依赖于狭窄训练的模型,可能表现脆弱或仅限于特定领域 [YZ+23]。这些不足凸显了需要更加灵活和稳健的解决方案的紧迫性,这些解决方案能够在开放式和快速变化的具身场景中蓬勃发展。 近期基础模型(FMs,例如大型语言模型、大型模型或视觉语言模型(VLMs))[ZLL+24] 的突破为推进 MAS 向更加自适应和生成行为的发展开辟了新的途径。通过为智能体提供自然语言能力、情境推理以及生成新解决方案的能力,基于基础模型的 MAS 超越了纯信号驱动或强化学习框架中固有的局限性 [GCW+24, CLH+24, LP+24]。这些“生成型智能体”能够以语义丰富的方式进行沟通,与人类级别的流畅度协作,并能够迅速应对突发挑战,调整策略。因此,基于 FM 的智能体可能会彻底改变多智能体协作的方式——无论是在由具身设备组成的物理空间,还是在智能体共享抽象知识和任务的虚拟空间中。 在此背景下,EMAS 领域将能够从这些 FM 方面的最新进展中获益。通过将物理具身与生成型多模态智能结合,未来的系统可能会采用更广泛的设计空间,整合复杂的感知、高级语言和视觉推理能力,以及自适应决策能力。然而,现有文献中关于具身 AI 和多智能体系统的综述通常将这些领域视为孤立的,未能在它们的交集处进行系统性的探讨 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能体如何最好地融入 EMAS 的系统化视角仍在不断发展中。 本综述旨在提供对生成型多智能体协作在具身 AI 中现状的全面和结构化的分析,如图 1 所示。首先,在第 2 节中,我们提出了一种分类法,根据模型数量和具身类型对现有的 EMAS 解决方案进行分类,强调协作如何在物理智能体和纯粹虚拟语义环境中产生。接下来,在第 3 节中,我们探讨了多智能体协作的主要构建块——系统感知、规划、沟通和反馈,并分析了如何设计这些组件以利用基于 FM 的生成能力。超越理论视角,在第 4 节中,我们深入探讨了实践应用,展示了生成型多智能体协作如何增强不同具身场景中的功能。根据我们的了解,这是首次系统性地探讨 MAS、具身 AI 和基础模型的融合。最后,在第 5 节中,我们总结了开放的研究挑战,勾画了关键的未来发展方向,并讨论了 EMAS 对更广泛的 AI 和机器人领域的潜在影响。我们的目标是通过呈现这个迅速发展的领域的整体概述,来为研究人员、从业人员和利益相关者提供信息并激发灵感。
在前一节中概述的关键挑战和机遇的基础上,本节介绍了具身多智能体系统(EMAS)中的协作架构,如图 2 所示。特别地,我们探讨了生成型多智能体系统如何利用外部协作(跨多个具身实体)或内部协作(在单一具身实体内多个基础模型之间)。我们还涵盖了结合这些策略的混合方法,以满足多样化的系统需求。我们的目标是提供一种结构化的理解,说明如何协调多智能体协作,以最大化适应性、可扩展性和任务一致性,尤其是在与基础模型(FM)集成时。
在多个具身实体之间展开的协作场景中,我们称之为外部协作,智能体在物理或虚拟环境中互动,以实现共享的目标。借鉴长期以来的多机器人和传统多智能体系统(MAS)文献,外部协作可以通过集中式或去中心化策略组织。这些方法在可扩展性、通信开销以及全局控制与局部控制之间存在不同的权衡。集中式架构 在集中式策略框架中,单一的统一模型控制多个机器人或智能体,提供集中式的任务分配和决策制定。该集中模型根据智能体的能力和系统目标分配任务,通过提供全局视角确保智能体之间的协调。已有研究探索了基于语言的任务分配方法 [LTW+24, OA+24, CYZ+24] 和基于代码的任务分配方法 [KVM24, ZQW+24]。 集中式模型还在决策制定中发挥关键作用,通过整合来自所有智能体的信息来做出最终决策,确保一致性。例如,[YKC23] 使用集中式模型来确定导航目标,[TXL+20] 使用它来进行基于 3D-CNN-LSTM 的互动问答,[GAZ+24] 使用它在多机器人系统中通过引导领导机器人行动来解决死锁问题。 集中控制策略通过使用单一模型进行任务分配和决策制定来确保协调。其优势包括任务的最优分配和一致的决策。然而,它可能受到系统复杂性、高计算需求以及在大规模或动态环境中的可扩展性问题的限制。
在去中心化策略中,每个模型独立控制其相应的具身实体,从而提供更大的灵活性和可扩展性。早期的研究使用强化学习进行去中心化控制,但基础模型(FM)的兴起使得智能体能够自主处理多样化的任务 [CJ+24],形成了更为先进的去中心化系统。 基础模型通过利用推理能力来增强去中心化系统,基于局部部分观察来改善个体决策。例如,[ZWL+24] 利用世界模型来辅助多智能体规划,在该模型中,每个个体通过世界模型预测其他智能体的行为,并推断自己的计划。类似地,[AF+23] 引入了一个辅助的心智理论推理基础模型来解释合作伙伴智能体的行动和需求,从而支持个体决策。 此外,凭借基础模型的推理和通信能力,基于FM的智能体表现出涌现的社交性。[CJ+23] 发现,当没有明确指导采用哪种策略时,FM驱动的智能体主要遵循平均策略,这代表了智能体之间的一种平等主义组织结构。其他研究 [GHL+24, CJ+24] 强调了团队中更为结构化角色的潜在好处。这表明,类似于人类的社会结构,FM智能体可以表现出涌现行为,通过适应组织框架来优化协作,从而增强它们在处理复杂任务时的集体能力。
外在协作涉及多个机器人和具身实体之间的合作,而内在协作则发生在单一系统的内部结构中,该系统可能包含多个基础模型(FM)。这一概念与最近推动的各个FM模块之间的协作工作流程密切相关,这些模块各自专注于不同的角色,共同处理日益复杂的任务。这样的内部协调扩展了传统的多智能体协调概念,侧重于在单一具身体内进行集中的决策。 在这一工作流程中,每个FM承担特定的功能或角色,共同完成任务。研究已将这一范式应用于具身学习系统,例如 [QZL+24],该系统使用规划者、部分处理器和执行者等模块来解决Minecraft沙盒中的任务,和 [SSY+24],它将任务分解为观察者、规划者和执行者角色。LLaMAR [NO+24] 还采用了计划-行动-纠正-验证框架进行自我修正,无需预言机或模拟器。 内在协作可以通过提高规划准确性、安全性和适应性来提升系统功能。例如,[LY+23] 使用基于FM的快思维和慢思维进行协作计划生成和评估,而LLaMAC [ZMR+23] 则采用多个批评者和评估者来提供反馈并提高鲁棒性。
在许多现实世界的应用中,严格区分外在协作和内在协作既不现实也没有优势。因此,混合协作架构结合了这些策略,利用了集中式、去中心化和内部FM工作流程的优势。 随着具身任务复杂性的增加,混合不同协作层次的灵活性——无论是在机器人之间,还是在智能体的内部结构中——变得越来越有价值。 内在协作通过模块化FM增强模型能力,并且可以应用于集中式和去中心化系统。例如,CoELA [ZDS+24] 使用五个模块——感知、记忆、通信、规划和执行——而 [YPY+24] 为去中心化机器人协作构建了具有观察、记忆和规划模块的智能体。集中式模型也可以使用模块化FM,例如 [WTL+24],它使用任务和行动FM进行任务分配。 集中式和去中心化策略可以结合使用,不同阶段的任务可以采用不同的方法。受到多智能体强化学习(MARL)中的集中训练与去中心化执行(CTDE)框架的启发,[CYZ+24] 和 [ZC+24] 提出了集中规划与去中心化执行的方案,其中全球规划指导任务执行,最大化全球监督与地方自治之间的协同效应。 通过展示这些不同的架构,我们阐明了实践者如何在不同粒度和控制层级上有效地协调EMAS中的多智能体协作。下一节将基于这一架构视角,探讨如何设计关键的系统组件——感知、规划、通信和反馈——以利用基于FM的生成能力,进一步提升多智能体协作的鲁棒性和适应性。
在第二节中,我们从结构层面探讨了如何协调多智能体协作,接下来我们将转向推动具身智能体之间有效团队合作的功能性构建模块。具体来说,我们重点介绍感知、规划、通信和反馈机制如何被设计来利用基础模型(FM)的生成能力。通过聚焦于这些关键模块,我们展示了EMAS解决方案如何更加稳健地解读物理环境、制定并适应计划、交换信息,并从自身行为以及环境中迭代学习。这种方法补充了前述的协作架构,提供了一个更细化的视角,以促进具身智能体之间的动态和上下文感知协作。
尽管生成模型可以从文本和视觉中获取语义知识,但具身智能体必须主动感知并解读物理世界。这需要处理三维结构、动态条件和实时互动 [LCB+24]。因此,感知模块至关重要,它将环境的详细特征传递给后续的模型,确保生成能力植根于具体的上下文中 [PH+24]。
向FM提供物理上下文的最简单方法是提供环境的口头描述。尽管这些提示可以手动编写,但许多方法使用自动化工具增强语言描述。例如,一些研究 [MJ+24, CZR+23] 使用视觉模型来检测和描述物体,而其他研究 [BCF+23, HW+23] 则利用可操作性学习来丰富FM对物体在物理环境中如何被操作的理解。除了被动接收信息,最近的工作使智能体能够决定何时以及观察何种类型的信息,从而促进主动感知。例如,[QZL+24] 允许FM查询经过微调的模型,获取环境细节;这些响应逐步构建场景描述。
在多智能体系统中,协作感知旨在融合来自不同智能体的互补传感输入,从而提升整体性能 [YYZ+23]。在自动驾驶或无人机编队中,这通常通过传感器级的数据共享或输出级融合实现 [SRC24]。在基于FM的系统中,协作智能体可以通过聚合每个智能体的本地地图或视觉数据,共同构建环境的全局记忆。例如,[YKC23] 融合了来自多个智能体RGBD输入的语义地图,[TXL+20] 使用每个智能体观察的3D重建形成共享环境的整体3D状态和语义记忆。
规划是多智能体具身系统的核心模块,使得智能体能够基于状态、目标和个体能力进行战略部署。有效的规划对于任务分配、协调以及无缝整合生成FM的能力至关重要。
规划方法通常采用基于语言或基于代码的格式。基于语言的规划使用自然语言引导任务流,具有直观性和易适应性,尤其是在先进FM的出现之后 [MJ+24, YKC23]。相比之下,基于代码的方法利用结构化编程或领域特定符号(例如PDDL)来实现更高的精确度。[KVM24] 使用Python代码框架来描述整体任务流程,[ZQW+24] 将任务转换为PDDL问题,以便分配给多个机器人。
除了个体决策外,多智能体协作还要求达成共识、解决冲突和共享资源。在集中式系统中,单一模型通常负责分配子任务。例如,[LTW+24] 根据每个智能体的能力生成行动列表,[OA+24] 集成FM和线性规划来解决任务划分,[CYZ+24] 则利用“机器人简历”来进行FM驱动的任务分配讨论。在去中心化系统中,智能体直接沟通以优化集体计划,并通过强大的信息交换得到支持,这将在下一小节中进一步探讨。
通信是MAS的核心,使得智能体能够共享情况更新、协调任务并达成共识。与传统方法需要繁琐的通信协议设计不同,生成智能体可以利用FM的零-shot语言生成能力,降低了构建高效通信接口的复杂度。 参考 [SWJ+22],我们将具身AI中的多生成智能体通信模式分为三种主要结构:
具身任务复杂且不确定,因此反馈机制对智能体改进至关重要。反馈使智能体能够调整和优化行为,允许它们根据当前状态、环境变化或外部指导进行持续学习。
系统反馈是指在采取行动之前由系统内部生成的信息。这涉及到智能体或集中模型重新审视其初始计划,以识别缺陷或潜在改进之处。多个研究 [LZD+24, CYZ+24, ZMR+23] 实现了任务生成后的多智能体讨论阶段,通过同行反馈完善行动列表。[CAD+24] 和 [ZQW+24] 使用FM检查器来验证基于代码的计划,确保语法正确性。同时,[ZYB+24] 提出了优势函数来评估并迭代优化计划,[LY+23] 使用FM来预测计划结果,随后通过另一个FM评估计划质量,从而推动迭代改进。
环境反馈发生在执行物理(或模拟)世界中的行动后。许多研究记录现实世界的结果以指导未来决策。例如,[LTW+24] 和 [YPY+24] 将行动结果存储在记忆中,以便未来规划参考,而 [QZL+24] 和 [NO+24] 则评估失败的根本原因并相应调整行动计划。此外,多智能体的组织结构可以在任务执行过程中根据环境信号重新配置。[CSZ+23] 动态更新角色,[GHL+24] 使用FM批评者来评估智能体表现,甚至重新组织领导角色。
外部人类指导可以提供细致的干预和战略方向,这是纯自动化系统无法实现的。例如,[PL+23] 识别模糊或不可行的任务指令,要求人类提供帮助,而 [WHK24] 和 [RDB+23] 则结合了符合预测来衡量任务的不确定性并触发人类帮助请求。除了请求帮助,[CK+23] 和 [SH+24] 允许人类操作者通过口头指令实时调整机器人的动作,从而提高任务成功率。 总之,感知、规划、通信和反馈成为将高层次协作架构转化为实际生成多智能体解决方案的基础支柱。无论智能体是通过分布式配置进行外在协作,还是通过单一具身内部的多个FM进行内在协作,强大的支持模块都确保了在现实环境中的适应性和鲁棒性。 下一节将深入探讨具体的应用领域,展示这些功能模块如何协同工作以应对多样的具身任务。通过将架构原理(第2节)与模块化功能结合,并将其植根于实际场景,我们旨在提供一个全面的视角,展示如何在EMAS中有效实现生成多智能体协作。
在前面的架构和功能模块的基础上,本节探讨了生成式多智能体协作如何从受控的仿真环境过渡到现实世界应用。尽管许多进展是在虚拟平台上验证的,但这些仿真洞察为解决智能交通、家庭机器人学和具身问答等复杂问题奠定了基础。
前面的部分介绍了多智能体协作如何在结构和功能上得到启用。现在,仿真环境作为一个关键层次,用于测试这些设计,使研究人员能够系统地改进智能体交互,而无需承担现实世界操作的成本或风险。网格世界范式 网格世界具有基于单元格的结构,重点是决策制定和路径规划,同时抽象掉了物理细节。通过采用基于FM的翻译和检查框架,[CAD+24] 改进了多智能体在网格任务中的表现,[ZMR+23] 引入了反馈机制来增强网格运输任务的表现。[CAZ+24] 进一步评估了在网格设置中各种基于FM的多机器人架构,强调了这些简化的世界如何帮助快速验证协作设计。基于游戏的协作场景 像《Overcooked》这样的基于游戏的平台提供了明确的规则、时间限制和智能体间强制协调的任务 [YJ+24, AF+23, ZYB+24]。FM协调还扩展到其他结构化游戏,如《Hanabi》和《Collab Games》,展示了生成式方法如何适应不同的基于团队的挑战。对于更具开放性的任务,《Minecraft》 [WXJ+23, PC+24] 推动了更大环境和无尽目标的应用。最近的研究 [PC+24, ZC+24, QZL+24] 聚焦于协作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 则解决了资源收集或结构构建的问题。高级3D环境与机器人仿真 现实感仿真器旨在更紧密地模仿现实生活中的复杂性。AI2-THOR [KM+17] 提供了精细渲染的室内场景,并用于多智能体家庭任务 [KVM24, WHK24, LLG+22, SSY+24]。类似地,VirtualHomeSocial [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于Habitat的基准平台 [CYZ+24] 使智能体能够在物体操作和导航中发展协作策略。这些平台帮助架起了算法开发与物理部署之间的桥梁。
凭借验证过的架构和强大的功能模块,研究人员已开始面临终极挑战:将仿真学习转化为可行的物理部署。从智能交通到家庭机器人学,以下小节展示了生成式多智能体协作如何适应现实世界的需求,突显了这些系统的成熟度和面临的挑战。智能交通与配送 智能交通中的多智能体协作涵盖了无人机/地面无人车(UAV/UGV)的协调任务,如货物配送和环境监测。早期的研究主要利用多智能体强化学习(MARL),但现在基于FM的解决方案开始出现。[GW+24] 探讨了基于FM的初步任务分配用于监视任务,[WTL+24] 将生成模型应用于跟踪目标分配,表明基于语言的策略能够迅速适应动态场景。家庭辅助机器人 许多3D仿真基准平台,包括AI2-THOR和Habitat,最初是为了模拟家庭环境而设计的。家庭任务,如“清理桌子”或执行指令“打开书桌和地板灯并看电视”,要求具备强大的感知、规划和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多个智能体如何共享角色、解读指令并划分复杂任务。生成模型进一步简化了协调,使得任务分配更具适应性,并丰富了人机交互。超越探索:具身问答(EQA) 具身问答(EQA)涉及在3D空间中的主动探索和推理。与强调物理交互的任务不同,EQA侧重于信息的收集与解读,通常需要对空间布局、物体关系或事件历史有深刻的理解。多智能体版本通常利用基于团队的感知来建立全局记忆和达成共识 [TGG+23, TXL+20, PD+24]。[CZR+23] 将专职功能的智能体定位在关键位置进行信息贡献,展示了如何通过FM驱动的协作将观察结果整合成连贯的答案。 本节通过强调这些仿真基准平台和现实世界应用,突出了EMAS中的一个关键发展轨迹:首先通过结构化的测试平台进行概念验证,然后将解决方案过渡到高风险领域。既然已经明确了生成式多智能体协作可以部署的场所和方式,接下来的部分将讨论剩余的挑战,并勾画出EMAS研究的前景。
随着具身人工智能(AI)系统中多智能体协作领域的不断发展,仍然存在一些开放的挑战和有前景的未来方向。尽管取得了不少进展,但仍然存在诸多现实世界的障碍,限制了具身系统的应用。本节识别了关键挑战,并概述了潜在的探索和创新领域,以应对这些问题。
一个主要的挑战是缺乏标准化的评估标准。尽管在单一智能体系统和个体代理的基准测试方面取得了显著进展,但对于具身多智能体协作的评估仍存在明显的空白。现有的基准测试通常专注于特定任务的度量,未能充分考虑多智能体环境中互动、协调和涌现行为的复杂性。因此,亟需建立统一的评估标准来全面评估多智能体系统的性能,包括可扩展性、适应性、鲁棒性和集体智能等因素。基准测试的发展对于确保不同领域的一致性至关重要,并能够实现不同多智能体框架之间的有意义比较。
多智能体协作的另一个挑战是数据稀缺性和异质性。收集具有不同物理特性和能力的多种系统的大规模、高质量数据是一项艰巨的任务。硬件、传感器和环境交互的差异导致了数据的不一致性,这使得跨系统和任务的泛化变得困难。现实世界中可用的数据可能有限,阻碍了有效的训练和评估。此外,由于实际限制,多数多智能体协作的研究是在仿真环境中进行的,只有少数研究采用了现实世界数据。因此,亟需建立标准化的数据收集方法,并且需要创新的方法来弥合仿真与现实应用之间的差距,连接理论与现实。
基础模型的发展,尤其是面向具身智能体的基础模型,预计将成为多智能体协作领域的一项突破性进展。目前,生成式智能体主要依赖FM来执行复杂任务,下一步自然是构建专门为具身系统设计的基础模型。这些模型将作为多智能体协作的核心框架,整合感知、决策和行动。近期的工作,如RT-1 [BB+22] 和RDT [LW+24],在适应性和可扩展性系统的机器人基础模型方面取得了显著进展。基础模型的演进将为更无缝的多智能体协作奠定基础,使得智能体能够在动态环境中进行全面的协作和工作。然而,将单智能体FM扩展到多智能体系统仍然面临挑战,这需要新的架构和方法。
目前,参与协作的智能体数量较少。随着智能体数量的增加,计算、通信、协调、任务分配和资源管理的复杂性和难度也将增加。此外,在大规模多智能体系统中保持稳定性和鲁棒性需要复杂的协调与调度技术。针对可扩展架构、有效的通信协议和协作策略的研究将是解锁大规模具身系统全部潜力的关键。优化智能体工作流程和模式的发展对于在资源意识下扩展这些系统至关重要。
将机器人集成到以人为中心的环境中仍然是一个重要话题。在许多应用中,多智能体系统不仅需要相互协作,还需要与人类协作。确保机器人能够在动态和非结构化的环境中与人类无缝合作,需要开发考虑人类认知能力、偏好和局限性的机器人-人类交互(HRI)协议。人机协作引入了额外的挑战,如安全性、适应性和信任性。在人机团队合作、共享自主性和直观接口方面的研究将对促进机器人与人类之间的安全、富有成效的协作至关重要,特别是在医疗保健、工业自动化和服务机器人领域。
当前的具身多智能体协作方法,尤其是涉及FM的系统,通常缺乏坚实的理论基础。尽管在开发实际系统方面取得了重大进展,但关于支配智能体交互的潜在原理和集体智能的理解仍然非常有限。对动态协作的深入理论探索,包括通信、协调和共识的作用,是推动该领域发展的关键。此外,具身多智能体系统和模型的可靠性与可解释性在安全关键型环境中尤为重要,如自动驾驶和智能铁路等应用场景。 6 结论
本综述调查了一个具有潜力的研究领域——具身系统中的多智能体协作,重点探讨了如何将生成式基础模型(FM)集成到具身多智能体系统中。我们强调了基于FM的生成式智能体如何促进动态协作和涌现智能,并从内在和外在两个角度系统地探索了多智能体协作架构,重点关注感知、规划、通信和反馈机制等关键技术。通过研究从网格世界探索到家庭助理等多种应用场景,展示了基于FM的具身多智能体系统(EMAS)解决复杂问题的潜力,并讨论了该领域快速发展过程中所面临的挑战和机遇。我们希望本综述能为研究人员、从业者和相关方提供宝贵的参考,帮助他们全面了解当前的研究现状,并激发更多先进且可扩展的解决方案,以实现具身多智能体AI的动态无缝协作。