随着大语言模型(LLMs)的最新进展,代理式人工智能(Agentic AI)在现实应用中取得了显著进展,朝着基于多个大语言模型的智能体迈进,实现感知、学习、推理和协同行动。这些基于大语言模型的多智能体系统(MASs)使得一组智能体能够协作解决复杂任务,并以大规模方式实现集体行动,从孤立的模型转向以协作为核心的方法。
本文提供了关于多智能体系统协作方面的广泛综述,并提出了一个可扩展的框架来指导未来的研究。我们的框架根据关键维度对协作机制进行表征:参与者(涉及的智能体)、类型(例如,合作、竞争或合作竞争)、结构(例如,点对点、集中式或分布式)、策略(例如,基于角色或基于模型)以及协调协议。通过对现有方法的回顾,我们的研究成果为揭示和推动基于大语言模型的多智能体系统向更加智能和协作的解决方案发展,特别是在复杂的现实应用中,提供了基础。
此外,本文还探讨了多智能体系统在不同领域的各种应用,包括5G/6G网络、工业5.0、问答系统、以及社会文化环境,展示了它们的广泛应用和更深远的影响。最后,我们总结了关键经验教训,分析了多智能体系统面临的开放挑战,并指出了朝着人工集体智能发展的潜在研究方向。
CCS概念:
• 一般和参考 → 综述与概览; • 计算方法 → 多智能体系统;自然语言生成;神经网络。 附加关键词: 人工智能,大语言模型,多智能体协作
1 引言
1.1 动机
大语言模型(LLMs)的最新进展已彻底改变了人工智能(AI),使其能够执行复杂的任务,如创造性写作、推理和决策,堪比人类水平 [156]。尽管这些模型在单独使用时展现了显著的能力,但它们仍然存在一些内在的局限性,如幻觉问题 [57]、自回归特性(例如,无法进行深思熟虑的推理 [49])和扩展法则 [55, 69]。为了应对这些挑战,代理式人工智能(Agentic AI)利用LLM作为大脑或协调者,将它们与外部工具和任务(如规划)结合,使基于LLM的智能体能够采取行动、解决复杂问题,并与外部环境进行交互。 此外,研究者们越来越多地探索横向扩展——利用多个基于LLM的智能体协作实现集体智能。这种方法与多智能体系统(MASs)和协作AI的研究方向一致,后者专注于使一组智能体能够协调、共享知识并共同解决问题。这些领域的融合催生了基于LLM的多智能体系统,利用多个LLM的集体智能来应对复杂的多步挑战 [118]。MAS的灵感不仅来自技术进展,还源于人类集体智能(例如,心智社会 [87],心智理论 [45])。人类社会擅长通过团队合作和专业化实现共享目标,从日常任务到科学发现都可以体现这一点。同样,MAS旨在模拟这些原则,使AI智能体能够通过结合各自的优势和视角有效协作。
基于LLM的MAS可以通过不同的协作渠道进行协作,这些渠道具有不同的特征,如图1所示。MAS在各个领域取得了显著成功,通过让智能体之间进行协作和协调,增强了单个LLM的能力。这些系统将任务分配给智能体,允许智能体共享知识、执行子任务,并将其努力与共享目标对齐。MAS的潜在优势是变革性的。它们擅长知识记忆,使得分布式智能体能够保持并共享多样的知识库,而不会使单一系统过载 [51, 154]。它们通过将任务分配给不同的智能体来增强长期规划,支持在延续的交互中持续解决问题 [58]。此外,MAS通过汇聚来自多个模型的专业知识和提示/角色,能够实现更有效的泛化,比单一模型更有效地解决各种问题。最后,MAS通过通过专业智能体同时管理子任务,提高了交互效率,加速了解决复杂的多步任务。MAS力求实现集体智能,其中多个智能体的综合能力超过了它们单个贡献的总和 [24]。
有效的MASs的一个主要关注点是协作机制 [33, 74, 75, 97, 132],它们促使从传统的孤立模型向强调互动的方法过渡,使得智能体能够连接、协商、做决策、规划并共同执行任务,从而推动集体环境中AI能力的发展。深入理解MAS中的协作机制是解锁其全部潜力的关键。
1.2 现状与贡献
由于基于LLM的多智能体协作系统的重要性和迫切需求,已有一些综述文章讨论了这一主题。然而,这些工作往往未能充分探讨基于LLM的MAS的协作方面和机制,而这些方面对实现智能体朝着共享目标高效协作至关重要,具体总结见表1。例如,[47, 107, 136] 主要关注单智能体系统,仅在表面层次上提及多智能体协作。 [136] 通过提出一个框架为LLM智能体奠定了基础,框架由三部分组成:大脑、感知和行动。该工作强调了使用LLM作为智能体的大脑,利用输入模态整合、提示、检索和工具使用等技术。然而,他们对多智能体协作的讨论仅限于智能体行为和个性,未深入探讨使智能体协同工作的机制。[47] 综述了基于LLM的MAS成功应用的领域和场景,概述了这些系统的通信结构(分层、去中心化、集中式和共享消息池),但没有涉及协作的其他特征,如类型、策略或协调架构。
其他一些工作,如 [82],关注协作策略,将其分类为合并、集成和合作。尽管他们的综述讨论了这些策略如何应用于LLM,并将合作扩展到传统的融合技术之外,但忽略了竞争与合作竞争等其他重要的协作机制,以及超越流行的协作类型的维度。与此不同,[120] 提出了一个增强LLM能力的通用框架,展示了Auto-GPT等工具如何与该框架对接。然而,协作机制仍然停留在概念层面,缺乏详细的实现和表征。[50] 的研究重点是配置LLM以利用多样的能力和角色,如集成记忆和信息检索组件。他们对多智能体协作的探索主要集中在规划和协调架构上,强调基于智能体角色和专业化的全局与局部任务规划。同时,[46] 的工作将焦点缩小到基于LLM的MAS在基于智能体的建模与仿真中的应用,讨论了环境感知、人类对齐、行动生成和评估等挑战。尽管这些工作对于仿真特定应用有启发性,但缺乏对深入协作机制的广泛视角。同样,[68] 综述了这些系统在数字孪生应用中的应用,[52, 70] 聚焦于软件工程领域。
从上述总结和说明中可以看出,在充分探索基于LLM的MAS的协作方面和机制上存在明显的不足,这对于使智能体朝着共享目标有效协作至关重要。本工作旨在提供基于LLM的多智能体协作系统中智能体间协作基础的全面视角。以协作为主要焦点,我们的研究将基于LLM的智能体间协作表征为:参与者(涉及的智能体)、类型(如合作、竞争或合作竞争)、结构(如点对点、集中式或分布式)、策略(如基于角色、基于规则或基于模型)和协调层。我们强调促进有效协作的机制和“诀窍”,识别MAS设计中的关键特征和趋势。通过综述现有方法并识别开放挑战,我们将这些发现综合成一个连贯的框架。该框架为未来研究提供基础,推动LLM在MAS中的集成,为更具适应性、智能性和合作性的AI系统铺平道路,使其能够应对复杂的现实应用。 我们的主要贡献如下:
本文组织结构如下。第2节提供了理解本研究所需的背景信息,包括LLM、MAS和协作AI的概述。第3节介绍了基于LLM的多智能体协作系统的基础概念,通过数学符号强调协作的关键作用。接着,第4节对基于LLM的多智能体协作系统进行了广泛的综述,按协作的关键特征进行分类,包括类型、策略、结构和协调与 orchestration。第5节回顾了基于LLM的多智能体协作系统在工业和学术领域中的关键应用。第6节讨论了这一新兴研究领域中的开放问题和潜在的未来研究方向。最后,第7节对本文进行了总结。
多智能体系统(MAS)是由多个相互作用的智能体组成的计算机化系统。这些智能体具有自主性,能够感知环境、与其他智能体交互,并通过协作解决复杂的任务。MAS 的关键组成部分包括:
MAS 的显著特征包括灵活性、可靠性、自组织和实时操作,使其成为解决复杂任务的有效解决方案。通过将复杂任务分解为多个子任务,每个子任务由不同的智能体处理,MAS 能够以较低的成本和较高的可靠性完成任务。
大语言模型(LLMs)是基于 Transformer 架构的深度学习模型,如 OpenAI 的 GPT、Meta 的 LLaMA 和 Google 的 Gemini 系列。这些模型通过在大规模文本语料库上进行训练,具备了强大的语言理解和生成能力。LLMs 的规模使其能够解决未经过明确训练的任务,如类比推理和零样本学习。 尽管 LLMs 在单智能体任务中表现出色,但在多智能体环境中,协调、通信和决策制定的复杂性增加,LLMs 的局限性变得更加明显。例如,级联幻觉(cascading hallucinations)问题在多智能体交互中尤为突出,即一个错误的输出可能导致连锁的错误反应。然而,通过引入结构化工作流和共识机制,研究人员正在探索如何克服这些挑战,使 LLMs 在多智能体环境中发挥更大的作用。
协作式人工智能(Collaborative AI)是指设计用于与其他 AI 智能体或人类协作的 AI 系统。协作式 AI 的研究方向包括多智能体系统、人机交互、博弈论和自然语言处理。通过集成这些技术,协作式 AI 有潜力推动具有深远经济和社会影响的新型应用。 协作是使 AI 智能体能够相互交互和合作的关键。协作机制不仅限于简单的合作,还包括竞争和竞合等高级机制。协作式 AI 推动了从传统的孤立模型向强调协作的方法的转变,新的方法使智能体能够交互、协商、决策、规划和共同行动,从而推动 AI 在集体环境中的能力。
在 LLM 多智能体协作系统中,智能体可以数学表示为 a={m,o,e,x,y},其中:
在 LLM 驱动的 MAS 中,智能体之间的协作至关重要。每个协作都有一个通信通道 cc,协作包括:
协作通道通过特定的属性进行表征,包括参与者(涉及的智能体)、类型(如合作、竞争或竞合)、结构(如点对点、集中式或分布式)和策略(如基于角色、基于规则或基于模型)。任何属性的差异都会导致不同的协作通道。
合作是 LLM 多智能体系统中最常见的协作类型。当智能体将其个体目标 oi与共享的集体目标 Ocollab对齐时,它们会共同努力实现互利的结果。合作在需要协作问题解决、集体决策和互补技能的任务中尤为重要。
竞争发生在智能体的个体目标 oi与其他智能体的目标冲突或资源有限的情况下。竞争可以推动智能体发展更高级的推理能力和创造性问题解决能力,增强系统的适应性。
竞合是合作与竞争的结合,智能体在某些任务上合作,而在其他任务上竞争。竞合机制在需要权衡和妥协的场景中尤为有效。
基于规则的协议通过预定义的规则严格控制智能体之间的交互,确保智能体按照系统范围内的约束协调行动。这种策略在任务程序明确且变化有限的情况下非常有效,但在面对意外情况时缺乏适应性。
基于角色的协议通过为每个智能体分配特定的角色或分工,使智能体能够专注于其专业领域内的子任务。这种策略提高了系统的效率和结构,但在角色定义不明确时可能导致冲突或功能缺陷。
基于模型的协议在输入感知存在不确定性的环境中提供了决策制定的灵活性。智能体根据对环境的感知、共同目标和固有的不确定性做出概率性决策。这种策略在动态环境中表现出色,但设计和部署复杂,计算成本较高。
集中式结构中,所有智能体都连接到一个中央智能体,中央智能体负责管理和协调智能体之间的交互。集中式结构在资源分配和任务协调方面具有优势,但中央节点的故障可能导致整个系统崩溃。
分布式结构中,控制权和决策权分布在多个智能体之间,每个智能体基于本地信息和有限的通信进行操作。分布式结构在系统容错性和可扩展性方面具有优势,但资源分配效率较低,通信开销较大。
分层结构中,智能体按层次组织,每个层次的智能体具有不同的功能和权限。分层结构在任务分配和资源管理方面具有优势,但边缘设备的故障可能导致系统失效。
静态架构依赖于领域知识和预定义的规则来建立协作通道。这种架构在任务执行一致性和利用领域知识方面具有优势,但在面对动态环境时缺乏灵活性。
动态架构能够适应变化的环境和任务需求,通过管理智能体或自适应机制实时分配角色和定义协作通道。动态架构在处理复杂和动态任务时表现出色,但资源使用较高,动态调整可能失败。
LLMs 在 5G/6G 网络和工业 5.0 中的应用显著提升了边缘网络的性能。例如,LLM-SC 框架利用 LLMs 建模文本的语义信息,设计基于 LLMs 的语义通信系统,实现了语义级和技术级性能的平衡。
LLMs 在问答和自然语言生成任务中的应用显著提升了系统的能力。例如,OpenAI 的 Swarm 框架通过引入“交接”机制,使多个智能体能够无缝协作,提升系统的效率和适应性。
LLMs 和 MASs 在社会和文化领域的应用展示了这些系统在模拟人类行为、社会动态和文化互动方面的潜力。例如,CulturePark 框架通过模拟跨文化互动,促进了跨文化理解和减少偏见。
实现集体智能需要解决多个开放挑战,包括统一治理、共享决策制定、智能体作为数字物种的设计、可扩展性和资源管理,以及发现和探索意外的泛化能力。
评估 MASs 的性能和行为比评估单个 LLMs 更为复杂。需要建立统一的、广泛的基准测试框架,以确保评估结果的可重复性和一致性。
LLMs 在多智能体系统中的部署可能放大幻觉和对抗性攻击的风险。确保智能体在伦理边界内操作,并防止有害行为的发生,是确保系统安全性和可靠性的关键。
通过对 LLM 多智能体协作机制的全面综述,我们提出了一个结构化和可扩展的框架,以指导未来的研究。我们的框架基于参与者、类型、结构、策略和协调机制五个关键维度,提供了分析和设计 LLM 多智能体协作交互的系统方法。我们相信,这项工作将为未来的研究提供灵感,并推动 MASs 向更智能和协作的解决方案迈进。