大型语言模型(LLMs)的快速发展为多机器人系统(MRS)开辟了新的可能性,提升了通信、任务规划和人机交互等方面的能力。与传统的单机器人和多智能体系统不同,多机器人系统面临着独特的挑战,包括协调性、可扩展性以及实际应用中的适应性。本综述首次全面探讨了大型语言模型在多机器人系统中的集成应用。它系统地将这些应用归类为高层任务分配、中层运动规划、低层行动生成和人类干预等方面。我们重点介绍了多个领域中的关键应用,如家用机器人、建筑、编队控制、目标跟踪和机器人游戏,展示了大型语言模型在多机器人系统中广泛的应用潜力和变革性价值。此外,我们还分析了限制大型语言模型在多机器人系统中应用的挑战,包括数学推理的局限性、幻觉、延迟问题以及对强大基准测试系统的需求。最后,我们概述了未来研究的机会,强调了微调技术、推理方法和任务特定模型的进展。本综述旨在为研究人员提供指导,助力基于大型语言模型的多机器人系统的智能化与实际部署。考虑到该领域研究的快速发展,我们将在开源Github仓库中持续更新相关论文。 关键词:大型语言模型、多机器人系统、任务分配与规划、运动规划、行动生成
1 引言
大型语言模型(LLMs)的快速发展已对多个领域产生了显著影响,包括自然语言处理和机器人技术。最初,LLMs是为文本生成和补全任务设计的,但随着时间推移,它们已发展出理解问题和解决问题的能力[83, 95]。这种发展对于提升机器人智能尤为关键,使得机器人能够处理信息并据此做出协调和行动决策[36, 40]。凭借这些能力,机器人能够更有效地解读复杂指令、与人类互动、与机器人队友协作,并适应动态环境[79]。随着机器人系统向更复杂的应用发展,将LLMs集成到其中已成为一个变革性的步骤,架起了高层推理与现实世界机器人任务之间的桥梁。
另一方面,多机器人系统(MRS)由多个自主机器人协同工作组成[8, 66],在环境监测[18, 58, 74]、仓库自动化[50, 68, 75]和大规模探索[10, 20]等应用中展现出巨大潜力。与单机器人系统不同,MRS利用集体智能实现了高可扩展性、韧性和高效性[66]。任务在多个机器人之间的分布特性使得这些系统可以通过依赖于较为简单且专业化的机器人来降低成本,而不需要依赖单个高度通用的机器人。此外,MRS还具有更强的鲁棒性,因为集体的冗余性和适应性常常可以缓解个别机器人出现故障的影响[52, 96]。这些特性使得MRS在规模、复杂性或风险超出单个机器人能力范围的场景中变得不可或缺。
尽管如此,MRS也带来了独特的挑战,例如确保机器人间的通信、在动态和不确定环境中保持协调、以及根据实时条件做出集体决策[6, 23]。研究人员正在努力将LLMs集成到MRS中,以应对与部署和协调MRS相关的独特挑战[13, 59]。例如,机器人间的有效沟通对于MRS而言至关重要,因为它有助于共享知识、协调任务并保持个别机器人之间在动态环境中的凝聚力[23]。LLMs可以为机器人间的通信提供自然语言接口,使得机器人能够更直观、更高效地交换高层信息,而不再依赖于预定义的通信结构和协议[59]。此外,LLMs的问题理解和问题解决能力可以在没有具体指令的情况下增强MRS的适应性。当给定一个特定目标时,LLMs能够理解任务,将其分解为子任务,并根据每个机器人团队成员的能力将这些子任务分配给各个机器人[11, 53]。LLMs在不同背景下的泛化能力也使得MRS能够适应新的场景,而无需进行大量的重新编程,从而在部署过程中展现出高度的灵活性[82, 92]。
LLMs在MRS中的应用也与日益增长的人机协作需求相契合[35]。由于操作员通常不具备机器人系统的专业知识,使用LLMs作为共享接口可以使操作员通过自然语言与机器人进行沟通和指令下达,从而使机器人能够做出决策并完成复杂的现实任务[2]。这些能力提升了MRS的效率,并扩展了其在需要紧密人机协作的领域中的应用。我们的研究受到综述文章[28]的启发,该文章全面回顾了用于多智能体系统的LLMs,其中抽象的智能体主要扮演虚拟角色。与多机器人系统不同,多智能体系统更强调智能体的角色,而MRS则专注于机器人与物理世界之间的交互。我们发现该文章对于MRS的涵盖较为有限,主要集中在LLM化智能体的相关工作,但仍然只是略作提及,且缺乏详细的总结。因此,我们认为有必要总结近期在决策、任务规划、人机协作以及任务执行方面,将LLMs应用于MRS的研究成果。图1展示了本综述文章中所提到的四个类别。我们希望这篇综述能帮助研究人员了解在MRS中应用LLMs的当前进展、面临的挑战以及提升多机器人集体智能的潜在机会。
为了更好地为有意将LLMs应用于MRS的研究人员提供全面的介绍,我们将本综述论文的结构安排如下:第2节介绍MRS和LLMs的背景,帮助读者更好地理解相关主题。同时,我们还总结并比较了其他现有的关于LLMs在机器人系统和多智能体系统中应用的综述论文,并解释了我们在MRS领域开展研究的必要性。接下来,第3节回顾了MRS中LLMs的通信结构。第4节我们将回顾LLMs在三个层级中的应用:(1)高层任务分配与规划,(2)中层运动规划,以及(3)低层行动执行。接着,我们将在第5节中基于实际应用回顾LLMs在MRS中的应用。第6节总结了现有的评估LLMs在MRS中表现的基准标准以及相关的仿真环境。第7节则识别了我们面临的挑战与局限性,并探讨了未来方向和机会,以提升LLMs在MRS协调和决策中的能力。最后,第8节为论文的总结部分。
2 背景
本节提供了关于MRS和LLMs的背景知识。尽管已有一些研究论文讨论了LLMs在机器人系统中的应用,但它们并未特别关注MRS。我们将总结这些研究的贡献,并讨论为什么我们关于LLMs在MRS中的应用的综述是必要且有影响力的。多机器人系统MRS由多个机器人组成,它们协作完成特定任务。与单机器人系统不同,MRS利用多个机器人的组合能力,以更高效、可靠和灵活的方式执行复杂任务。这些系统通常用于搜索和救援、环境监测、仓库自动化和探索等应用,其中任务的规模或复杂性超出了单个机器人的能力。当团队中的所有机器人相同且具有相同功能时,该团队称为同质多机器人团队。相反,异质多机器人团队由不同类型的机器人组成。MRS的优势包括增强的可扩展性,因为任务可以分配给多个机器人,以及增加的弹性,因为一个机器人的故障通常可以由其他机器人缓解。与设计单一、高度通用的机器人相比,MRS通常依赖于更简单、任务特定的机器人,从而降低了单个单元的成本和复杂性,同时受益于集体智能。然而,这些系统也带来了独特的挑战,特别是在通信、协调和决策方面,因为机器人必须在动态和不确定的环境中协同工作。两种主要的控制范式通常用于管理MRS中的交互和任务分配:集中式和分散式控制器。在集中式控制器中,单个控制器接收所有信息并指导系统中所有机器人的行动,从而实现优化的协调和全局规划。然而,当团队规模增加时,集中式系统可能成为瓶颈,并且容易受到单点故障的影响。另一方面,分散式控制器将决策分配给各个机器人,使机器人能够弹性地操作。这种方法增强了可扩展性和弹性,但通常需要额外的复杂性来确保机器人之间的无缝通信和协调。选择集中式还是分散式控制取决于具体的应用需求、环境条件以及效率和鲁棒性之间的平衡。大型语言模型LLMs是具有数百万到数十亿参数的深度学习模型。最初,LLMs的应用是基于上下文的文本补全或从用户指令生成文本。LLMs使用来自书籍、文章、网站和其他书面来源的大量文本进行训练。在此训练过程中,LLMs学习预测句子中的下一个单词或使用注意力机制填补缺失信息。这种预训练阶段使LLMs能够发展出对语言、语法、事实知识和推理技能的广泛理解。
2.2.1 微调和RAG虽然LLMs在多样化数据集上进行了预训练以应对一般任务,但在专门任务中的表现可能不理想,因为训练数据集可能未完全覆盖特殊用途。人们可以准备专门用于特定任务的数据集并重新训练模型。然而,由于计算资源有限且模型参数众多,重新训练整个模型通常具有挑战性。解决此问题的一种方法是使用低秩适应(LoRA)等技术,以有限的计算资源对LLMs进行微调。LoRA冻结预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层中,从而显著减少下游任务的可训练参数数量。另一方面,检索增强生成(RAG)是一种替代技术,它集成了外部知识源,以提高LLMs在专门任务中的零样本准确性。RAG解决了LLMs依赖预训练静态知识的关键限制,这些知识可能不包括特定领域或最新信息。通过将检索机制与LLMs的生成能力相结合,RAG允许模型在运行时查询外部数据库或知识库以检索相关信息。然后,这些检索到的数据用于指导模型的响应,从而增强其在专门上下文中的准确性和适用性。例如,RAG可以为机器人提供实时访问任务特定知识或环境更新,从而在动态场景中实现更好的决策。尽管RAG引入了额外的复杂性,如管理检索延迟和确保数据相关性,但它提供了一种强大的方法,弥合了静态预训练知识与现实世界应用动态需求之间的差距。
2.2.2 多模态LLMs传统的LLMs擅长处理和生成文本,但在需要理解多种数据类型的场景中表现不佳。最近在多模态LLMs方面的进展通过整合多种模态解决了这一限制,使它们能够将文本输入与视觉、听觉或其他感官数据结合起来。这些模型将来自不同模态的信息对齐到一个共享的语义空间中,从而实现无缝集成和上下文理解。例如,多模态LLM可以处理来自机器人摄像头的视觉数据以及文本命令,以识别物体、导航环境或执行复杂任务。这种跨模态信息综合能力显著增强了它们的适用性,特别是在需要整合多种数据类型的机器人学中。通过利用多模态能力,这些模型突破了LLMs的界限,提供了新的灵活性和适应性。
3 多机器人系统中的LLM通信类型
LLMs在理解和推理复杂信息方面表现出显著的能力。然而,它们的性能可能因所采用的通信架构而异。这种变异性在涉及具身智能体的场景中尤为明显,其中每个智能体都使用自己的LLM进行自主决策。这些LLMs的独立性在保持MRS的一致性、协调性和效率方面引入了独特的挑战。理解这些动态对于优化基于LLM的通信和决策框架在MRS中至关重要。Liu等人提供了LLM增强的自主智能体(LAAs)的全面比较,分析了将LLMs集成到智能体中的架构。虽然他们的工作主要集中在多智能体系统而非MRS,但他们对LLM架构和智能体编排的见解为多机器人应用提供了宝贵的灵感。他们的研究从一个基本结构开始,其中LLMs仅基于任务指令和观察进行零样本推理。然后,通过将先前的行动和观察纳入后续决策轮次中,增强了自我思考循环,以提高上下文一致性。他们通过引入少样本提示扩展了架构,包括示例行动以增强LLMs生成有效决策的能力。关于多智能体编排,Liu等人提出了一个集中式架构,具有消息分发器,将信息传递给配备自己LLMs的个体智能体。这些智能体独立处理分发的消息以生成行动。正如第4节所讨论的,几项研究采用了类似的自我思考策略来提高LLMs在协作系统中的决策一致性和可靠性。此外,Chen等人提出了四种通信架构:完全分散式框架(DMAS)、完全集中式框架(CMAS)以及两种结合分散式和集中式框架的混合框架(HMAS-1和HMAS-2)。他们的研究评估了这些结构在仓库相关任务中的性能,揭示了它们之间的显著差异。对于涉及六个或更少智能体的场景,CMAS和HMAS-2表现出相当的性能,尽管CMAS需要更多的步骤来完成任务。相比之下,DMAS和HMAS-1的性能明显较差。此外,他们的实验表明,HMAS-2在处理更复杂任务时优于CMAS,这表明具有优化结构的混合框架为复杂多机器人操作提供了更大的可扩展性和适应性。
4 多机器人系统中的LLM应用
在本节中,我们将LLMs在MRS中的应用分为高层次任务分配、中层次运动规划、低层次动作生成和人机交互场景。高层次任务规划涉及需要更高智能的任务,如多机器人之间的任务分配和规划,其中LLM需要展示逻辑推理和决策能力。中层次运动规划指导航或路径规划场景。低层次动作生成使用LLMs生成并直接控制机器人的姿态或运动。另一方面,人机交互涉及使用LLMs与人类操作员互动并指导任务规划和执行。高层次任务分配和规划高层次任务规划利用LLMs的高级推理和决策能力来处理复杂和战略性任务。这种场景通常需要在机器人团队之间分配任务、制定全面的任务计划或解决需要上下文理解和逻辑的问题。在这里,我们探讨了展示LLMs在这些复杂领域中能力的研究。最近的研究表明,LLMs能够在多个机器人之间分配任务。Wu等人提出了一个由两层组成的层次化LLMs框架,以解决多机器人多目标跟踪问题。在此场景中,LLMs根据当前机器人目标之间的相对位置、速度和其他相关信息为每个机器人分配目标进行跟踪。如图4所示,外部任务LLM接收人类指令和长期信息作为输入,为机器人团队提供战略指导和重新配置。同时,内部动作LLM以短期信息为输入,并输出控制参数给控制器。两个LLMs的输出通过优化求解器转换为可执行动作。此外,Brienza等人将VLM和LLM应用于生成机器人足球队的可执行计划。他们的方法涉及为VLM教练提供包含视频帧和相应文本提示的训练集,详细说明任务和约束。VLM教练生成视频帧的示意图描述以及高层次的自然语言计划。两个不同的LLMs进一步细化和同步这些高层次计划,以生成适用于各种场景的可执行策略。在实际应用中,系统根据与实际情况的相似性选择预收集的计划。此外,RAG最小化了提示大小并减轻了幻觉,确保更可靠的输出。此外,Lykov等人开发了一个MRS,用于收集和分类彩色物体集合并计数球形物体。他们的方法利用微调的LLM生成行为树(BTs)供机器人执行任务,并向人类操作员提供有关其行为的反馈。他们实现了一个具有两个LoRA适配器的单一LLM,每个适配器处理特定功能以提高效率和资源紧凑性。此外,Ahn等人引入了一个具有恢复机制的MRS框架。LLM控制器接收自然语言指令和低层次机器人技能库,以生成任务执行计划。他们系统的一个关键创新是检测与预期任务进展的偏差,并通过重新规划或寻求其他机器人或人类操作员的帮助来执行错误恢复。该领域的其余研究可以进一步分为两个关键领域:多机器人多任务协调和复杂任务分解,突出了LLMs在MRS中的广泛应用。
4.1.1 多机器人多任务
在多机器人多任务场景中,一个机器人团队被分配同时完成多个目标。LLMs在此类设置中发挥着关键作用,设计出可执行且高效的任务分配策略。通过解释高层次指令并理解每个任务的上下文,LLMs可以动态地在机器人之间分配任务,确保资源的优化利用和有效协作。这种能力使多机器人团队能够以更高的精度和适应性处理复杂的多面操作。Lakhnati等人提出了一个框架,其中三个异质机器人旨在完成由人类操作员在VR模拟中指示的复杂任务。首先,每个机器人LLM被赋予一个初始提示,以澄清其角色和能力。中央控制器LLM分析人类对任务的描述并将其分发给相应的机器人。人类操作员的指令可以直接指定每个机器人应该做什么(例如,“木星需要移动到哑铃并捡起它,海王星和冥王星必须移动到冰箱。”)或描述任务而不分配给特定机器人(例如,“三个餐盘必须放入垃圾桶,所有代理必须最终位于垃圾桶旁边。”)。沿着这条线,Chen等人提出了一个集中式框架,其中LLM控制器将人类指令分发给多机器人团队。他们的目标是使异质多机器人团队完成多个异质家庭任务。然而,他们引入的任务分配过程是“中央规划器”LLM与每个机器人上的机器人专用代理LLM之间的讨论形式。原始任务信息是从SLAM系统获得的几何表示,并构建为场景上下文以提示LLM。“中央规划器”LLM首先根据其分析将每个任务分配给每个机器人。然后,每个机器人专用代理LLM根据分配的任务提供反馈,并从机器人的URDF代码生成机器人简历。如果任务与机器人简历不匹配,它会提示“中央规划器”进行重新分配。LLMs之间的讨论继续进行,直到不需要重新分配。Chen等人进一步研究了基于LLM的异质多任务规划系统的可扩展性。在四个不同环境中比较了四种不同通信架构的效率和准确性,包括BoxNet、仓库和BoxLift。结果表明,HMAS-2结构实现了最高的成功率,而CMAS是最具令牌效率的。另一方面,Gupte等人提出了一个基于LLM的框架,用于解决多机器人多人类系统的初始任务分配。在此集中式框架中,LLM首先为每个用户的目标生成规定性规则,然后根据这些规则为每个目标生成经验。在获得生成的规则的实际知识后,通过推理评估LLM的性能,其中用户提供指令,LLM根据规则和经验分配任务。在推理阶段,利用两个不同的RAG工作流程以充分利用所获得的知识。此外,Huang等人测试了LLMs解决多机器人旅行商问题(TSP)的能力。通过提供适当的提示,LLM为多个机器人规划最优路径并生成Python代码以控制其运动。研究设置了三个框架:单次尝试、自我调试(LLM检查生成的Python代码是否可以执行)和自我调试与自我验证(LLM检查代码可执行性并验证执行是否产生正确结果)。他们的工作揭示了LLMs在处理此类问题时表现不佳,只有在特定情况下(如最小-最大多机器人TSP)才能观察到较高的成功率。
4.1.2 复杂任务分解任务分解是指MRS必须协作完成一个或多个需要仔细规划和分工的复杂任务的情况。在这种情况下,可以利用LLM将整体任务分解为与团队中每个机器人能力相符的较小、可管理的子任务。通过设计有效的提示,LLMs可以生成逻辑且可执行的任务分解,确保工作负载高效分配,并且机器人能够无缝协作以实现总体目标。Kannan等人引入了SMART-LLM,这是一个利用LLMs将高层次人类指令分解为子任务并根据其预定义技能集分配给异质机器人的框架。与Chen等人不同,其中机器人能力是从其URDF代码中推断出来的,SMART-LLM采用更传统的方法,通过明确定义每个机器人的技能集来进行异质任务分配。该过程涉及将指令分解为子任务,分析每个子任务所需的技能以形成联盟,并相应地分配机器人以确保高效的任务执行。Wang等人提出了依赖感知的多机器人任务分解和执行LLMs(DART-LLM),这是一个旨在解决MRS中复杂任务依赖和并行执行问题的系统,如图5所示。该框架利用LLMs解析高层次自然语言指令,将其分解为相互关联的子任务,并使用有向无环图(DAG)定义它们的依赖关系。通过建立依赖感知的任务序列,DART-LLM促进了逻辑任务分配和协调,使机器人能够高效协作。值得注意的是,该系统在较小模型(如Llama 3.1 8B)下表现出鲁棒性,同时在处理长期和协作任务方面表现出色。这种能力增强了MRS在管理复杂组合问题中的智能和效率。Xu等人提出了一个两步框架,利用LLMs将复杂的自然语言指令转换为MRS的分层线性时序逻辑(LTL)表示。第一步,LLM将指令分解为分层任务树,捕捉子任务之间的逻辑和时间依赖关系以避免顺序错误。第二步,微调的LLM将每个子任务转换为平面LTL公式,使用现成的规划器实现精确执行。该框架强调了时间推理在分解复杂指令中的重要性,确保长期和相互依赖的多机器人任务的准确任务分配和执行。与上述方法不同,Obata等人采用了一种略有不同的方法,提出了LiP-LLM,这是一个将LLMs与线性规划相结合的多机器人任务规划框架。LiP-LLM不提供端到端的任务分配和执行,而是利用LLMs生成技能集和依赖图,映射任务之间的关系和顺序约束。然后使用线性规划优化任务分配,以优化机器人之间的任务分配。这种混合方法通过结合LLMs的解释能力和优化技术的精确性,提高了任务执行的效率和成功率。结果表明,将LLMs与传统优化技术相结合,可以提高MRS的性能和协调性。另一方面,Liu等人提出了COHERENT框架,该框架利用提案-执行-反馈-调整(PEFA)机制进行异质MRS中的任务规划。PEFA过程涉及一个集中式任务分配器LLM,它将高层次人类指令分解为子目标并将其分配给个体机器人。每个机器人评估分配的子目标,确定其可行性,并向任务分配器提供反馈,从而实现任务计划的动态调整和迭代改进。该过程与Chen等人提出的EMOS框架中的机器人讨论机制相似,其中任务分解和分配利用基于机器人简历的具身感知推理。然而,COHERENT强调实时、反馈驱动的方法来处理任务分配和执行,使其特别适合动态和复杂的多机器人环境。不同地,Mandi等人提出了RoCo,这是一个用于多机器人协作的分散式通信架构,专注于高层次任务规划和低层次运动规划。在RoCo框架中,每个机器人配备一个LLM,与其他机器人进行对话以讨论和完善任务策略。此对话过程产生一个提议的子任务计划,该计划由环境验证其可行性。如果计划失败(例如,由于碰撞或无效配置),反馈将纳入后续对话中以迭代改进计划。一旦验证通过,子任务计划生成机器人手臂的目标配置,集中式运动规划器计算无碰撞轨迹。RoCo强调多机器人协作中的灵活性和适应性,并使用RoCoBench基准进行评估,展示了其在多样化任务场景中的鲁棒性能。这种方法突出了分散式LLM驱动推理与集中式运动规划在复杂动态环境中的协同作用。中层次运动规划MRS中的中层次运动规划包括导航和路径规划等任务,重点是使机器人能够在环境中高效地移动或协调。这些场景比高层次应用更直接和实用,但对于多机器人团队的无缝操作至关重要。LLMs通过利用其上下文理解和学习模式生成鲁棒和自适应的解决方案,为该领域做出了重大贡献。通过解释环境数据并动态适应变化,LLMs使机器人能够协作规划路径、避开障碍物并优化在共享空间中的移动。将LLMs集成到中层次运动规划中提高了效率和弹性,使MRS在动态和不可预测的环境中更具能力。Yu等人提出了Co-NavGPT框架,将LLMs集成为多机器人协作视觉语义导航的全局规划器,如图6所示。每个机器人捕获RGB-D视觉数据,将其转换为语义地图。这些地图与任务指令和机器人状态合并,构建LLMs的提示。然后,LLMs将未探索的边界分配给个体机器人以进行高效目标探索。通过利用语义表示,Co-NavGPT增强了对环境的理解并指导协作探索。在此框架中,LLMs仅限于为每个机器人分配未探索的边界进行导航,主要作为任务分配机制。Morad等人进一步提出了一种将LLMs与离线强化学习(RL)相结合的新框架,以解决MRS中的路径查找挑战。他们的方法涉及利用LLMs将自然语言命令转换为潜在嵌入,然后与智能体观察结果编码以创建状态任务表示。使用离线RL,在这些表示上训练策略以生成理解并遵循高层次自然语言任务的导航策略。该框架的一个关键优势是其能够完全在真实世界数据上训练策略,而无需模拟器,确保直接适用于物理机器人。LLMs的集成增强了任务指令解释的灵活性,而RL促进了低延迟和反应性控制策略的生成,从而实现高效的多机器人导航。沿着这条线,Godfrey等人开发了MARLIN(多智能体强化学习通过基于语言的机器人间谈判引导),这是一个将LLMs与多智能体近端策略优化(MAPPO)相结合的框架,以提高多机器人导航任务中的训练效率和透明度。在MARLIN中,配备LLMs的机器人通过自然语言谈判协作生成任务计划,然后用于指导策略训练。这种混合方法在LLM引导的规划和标准MAPPO强化学习之间动态切换,利用LLMs的推理能力提高训练速度和样本效率而不牺牲性能。实验结果表明,与传统的MARL方法相比,MARLIN能够实现更快的收敛和更一致的性能,并在模拟和物理机器人环境中验证了应用。这种基于谈判的规划集成突出了将LLMs与MARL相结合以实现可扩展、可解释的多机器人协调的潜力。另一方面,Garg等人利用LLMs解决连接的多机器人导航系统中的死锁问题。在障碍物密集的环境中,此类系统可能会遇到低层次控制策略无法解决的死锁。为了解决这个问题,LLM选择一个领导者机器人并规划其到达目标的路径点。系统重新配置为领导者-跟随者编队,基于GNN的低层次控制器引导领导者沿着路径点移动。类似地,Wu等人提出了一个中层次动作LLM,它使用短期输入(如跟踪误差和控制成本)生成优化型机器人控制器的参数,使其能够有效地跟随规划的路径点。虽然上述研究主要采用集中式系统,其中LLMs处理所有机器人的规划,但Wu等人开发了一个用于家庭任务的分散式多机器人导航系统。在此框架中,每个机器人配备一个LLM以实现通信和协作。机器人动态识别并接近分布在多个房间中的目标物体。通过通信触发机制动态分配领导权,领导者机器人根据其收集的全局信息发出命令。这种灵活且分散的领导策略增强了协作导航场景中的适应性和效率。低层次动作生成低层次动作生成侧重于在硬件级别控制机器人运动或姿态,将高层次目标转换为精确的控制命令。这些任务对于确保在动态环境中的平稳和高效操作至关重要。虽然LLMs提供了上下文推理和适应性,但它们在低层次任务中的表现通常有限,这些任务需要高精度和实时响应能力。结合LLMs与基于优化的控制器或强化学习的混合方法显示出在利用LLMs灵活性的同时保持可靠机器人动作所需精度的潜力。Chen等人利用LLMs解决多智能体路径查找(MAPF)问题,其中LLMs通过逐步生成动作来主动导航机器人。每个步骤都以高层次冲突检查器结束,以识别与机器人或障碍物的碰撞。虽然在无障碍环境中有效,但LLMs在迷宫式地图中面临挑战,原因是推理能力有限、上下文长度受限以及难以理解障碍物位置。除了路径查找,大多数关于使用LLMs进行动作生成的研究都集中在编队控制问题上。例如,Venkatesh等人提出了一个集中式架构,其中LLMs将自然语言指令转换为机器人配置,使群体能够形成特定模式。尽管作为集中式控制器具有优势,但Li等人强调了LLMs在分散式系统中的局限性。在分散式设置中,每个机器人配备自己的LLM,通过与其他机器人协调实现期望的编队。然而,LLMs在此任务中仍然面临挑战。在一个测试场景中,如图7所示,智能体被要求形成一个间距为5个单位的圆圈,智能体的LLM误解了指令,移动到圆圈的中心而不是周边。这种误解导致智能体执行基于共识的行为而不是预期的群体行为,揭示了LLMs在分布式协调中的困难。Strobel等人引入了LLM2Swarm,这是一个通过两种方法将LLMs与机器人群体集成的系统:集中式控制器合成和分散式直接集成。在集中式方法中,LLMs用于设计和验证部署前的控制器,从而实现高效和自适应的行为生成。在分散式方法中,每个机器人都有自己的LLM实例,实现本地化推理、规划和协作,以增强动态环境中的灵活性。结果突出了LLMs在群体机器人中的潜力,展示了它们在集中式和分散式控制范式中的适用性。Lykov等人进一步展示了LLMs在群体控制中的潜力,提出了FlockGPT,这是一个用于协调无人机群体以实现期望几何编队的框架。在此系统中,LLM生成有符号距离函数(SDF)以指导无人机相对于目标表面的移动,而专用控制算法管理碰撞避免等实际约束。这些研究强调了LLMs在增强集中式和分散式群体行为中的多功能性。人机交互在MRS中,LLMs通常专注于根据人类提供的指令执行任务,强调指令的解释和自主任务完成。一旦指令交付,人类参与通常被最小化。然而,新兴研究探索了需要LLMs与人类之间持续互动的场景,强调在整个任务执行过程中的合作、决策或外部观察。这些研究突出了动态人机交互的潜力,以应对意外挑战、完善任务策略或确保关键应用中的安全性。通过实现迭代式人机协作,这些方法增强了LLM驱动的MRS的适应性和可靠性。最简单的人机交互形式由Lakhnati等人展示,其中机器人以简单的循环运行:接收人类命令,执行相应任务,报告完成状态,并等待下一个指令。在此基础上,Lykov等人引入了LLM-MARS框架,使人类能够随时查询每个机器人的当前状态和任务进度。在此系统中,响应生成和任务执行均由单个LLM处理,并通过不同的LoRA适配器增强以提高效率。Hunt等人提出了一个更具交互性的方法,要求在通过LLM驱动讨论生成的任何计划执行之前获得人类批准。如果提议的计划被认为不合理,人类主管可以提供反馈,促使LLMs通过进一步对话完善其方法。Ahn等人引入了VADER系统,进一步增强了人类参与。当机器人遇到任务相关问题时,它会在人机舰队编排服务(HRFS)上发布协助请求,这是一个人类操作员和机器人代理均可访问的共享平台。任何代理或人类都可以响应请求,一旦问题解决,机器人将恢复其任务。这些例子展示了LLM驱动的MRS中不同程度的人类参与,从简单的命令执行到主动协作和动态问题解决。
5 应用
LLMs在MRS中的集成推动了各种应用领域的进步,每个领域都有独特的挑战和机遇。这些应用利用LLMs在理解、规划和协调任务方面的能力,提供了从室内到室外场景的解决方案。LLMs的适应性推动了在需要精确导航、任务分配和动态决策的任务中的创新,展示了其在结构化和非结构化环境中解决问题的潜力。在本节中,我们根据应用场景对研究进行分类,重点关注两个主要领域。首先,家庭领域突出了MRS在室内挑战中的应用,如导航、任务分解和物体操作。这些系统通常强调异质机器人之间的协作,以执行复杂的任务,从在多房间设置中识别目标到组织家用电器。其次,建筑、编队、目标跟踪和游戏中的应用展示了LLMs在专业领域中的多功能性。这些研究展示了MRS在户外或竞争环境中解决复杂问题的能力,如无人机编队用于搜索和救援任务、机器人足球策略以及在危险区域中的导航。这些领域共同强调了LLMs在推动MRS能力在多样化现实世界应用中的日益增长的影响。家庭。家庭领域代表了具有明确应用场景的研究的重要焦点,解决了诸如导航、任务分配和任务分解等挑战。例如,Wu等人和Yu等人研究了在复杂室内环境中的导航和多目标定位,如识别分布在多个房间中的物体,展示了在空间意识和适应性方面的进步。此外,Mandi等人、Yu等人、Kannan等人和Xu等人探索了任务分解和多机器人协作,以执行复杂的任务,如准备三明治或组织洗碗机。Chen等人强调了在多层室内环境中异质MRS的任务分配,解决了动态环境中的协调挑战。值得注意的是,他们提出了EMOS框架,这是一个具身感知的操作系统,通过新颖的“机器人简历”方法促进异质机器人之间的有效协作,使机器人能够从其URDF文件中自主解释其物理约束,而不是依赖预定义的角色。这些研究在利用多样化机器人能力的同时解决了子任务的时间序列问题,展示了MRS在家庭环境中解决复杂现实世界问题的潜力。其他包括建筑、编队、目标跟踪和游戏。一些研究专注于开放世界环境中的应用,突出了LLM集成机器人系统的多功能性和创新潜力。例如,Wang等人和Sueoka等人探索了使用LLMs协调机器人系统进行挖掘和运输任务,展示了其在建筑和复杂地形救援操作中的适用性。在无人机编队应用中,Lykov等人强调了协调和适应性,用于户外任务,如搜索和救援任务以及环境监测。类似地,Wu等人通过集成危险区域识别解决了开放世界目标跟踪问题,为在危险环境中自主导航提供了鲁棒的解决方案。这些场景进一步展示了LLMs在动态和结构化环境中的潜力。Brienza等人引入了LLCoach,这是一个用于机器人足球应用的框架,其中LLMs增强了战略决策和团队协调。这些研究共同强调了LLM驱动的MRS在解决各种复杂挑战中的潜力。
6 LLMs、模拟和基准测试
LLMs和VLMsLLMs和VLMs通过实现高级决策、通信和感知驱动的协作,在MRS中发挥着越来越重要的作用。不同的模型提供了独特的优势,使其适用于特定的MRS应用。表1提供了在讨论的研究中使用的LLMs和VLMs的比较总结,突出了它们在多机器人协调、规划和感知中的贡献。GPT是使用最广泛的语言模型之一,如表1所示,它构成了许多引用研究的核心。其通用推理和适应性使其能够集成到多机器人协调任务中,如任务分配和规划、多机器人通信和人机协作。此外,GPT已扩展到VLM,用于需要整合文本和视觉输入的应用。通过结合微调技术和视觉编码器,GPT可以分析图像、生成详细描述,并无缝结合文本推理与视觉理解。这些能力使其非常适合图像字幕、视觉问答和多模态翻译等复杂感知驱动应用。Llama提供了一系列从轻量级小模型到强大的大规模模型的开源模型,满足多样化应用需求。较小模型(如Llama 3-8B)因其轻量级设计和灵活性而特别受欢迎,非常适合计算资源有限的嵌入式或分散式MRS架构。另一方面,较大模型(如Llama 3-70B)提供了增强的能力和更高的准确性,非常适合需要高级推理和详细自然语言理解的复杂任务。Claude则优先考虑安全性、伦理AI和透明决策,使其非常适合受监管的多机器人应用。此外,Claude已扩展为VLM,进一步扩展了其多功能性。其对安全性和伦理考量的强烈关注使其成为涉及敏感视觉数据(如医学成像或内容审核)任务的引人注目的选择。与GPT不同,Claude的VLM实现采用以人为本的设计,强调决策透明度并最小化视觉解释中的偏见。GPT、Llama和Claude表现出一定程度的可互换性,如几项研究所证明的,这些研究测试了具有多个模型的架构,从而能够对其性能进行比较分析。Falcon强调实用性,针对资源受限的环境进行了优化。例如,唯一使用Falcon的研究因其在每个机器人上运行的微计算机的计算限制而选择它作为首选模型。PaLM以其多任务和多模态能力脱颖而出,擅长复杂推理和跨领域任务,如翻译和图像处理。然而,其部分闭源性质和在Google生态系统中的集成使其主要在Google DeepMind的研究中使用。此外,最近的研究探索了几种VLMs,包括PaLI、CLIP和ViLD。PaLI由Google开发,是一个多模态模型,专为多语言和跨视觉任务(如图像字幕和视觉问答)而设计,利用广泛的多模态数据。同样,CLIP由OpenAI创建,通过对比学习将图像和文本对齐到一个共享嵌入空间中,使其特别适合零样本任务,如图像分类和检索。相比之下,ViLD是Google的另一个模型,专注于零样本物体检测,通过将视觉特征与CLIP风格的语言对齐集成,使其能够精确识别未见过的物体类别。模拟环境我们总结了相关工作中使用的模拟平台,突出了它们在评估和推动该领域发展中的贡献。AI2-THOR已在[13, 38, 81, 87]中适应MRS,以评估在复杂室内环境中操作的具身AI智能体。虽然最初设计用于单智能体任务(如物体操作和场景理解),但最近的研究扩展了其用途,包括在受限环境中的协作物体检索、共享感知和协作规划。物理启发的交互使研究人员能够在动态和物理基础的环境中测试LLM驱动的协调策略,其中多个智能体必须导航、操作物体并动态解决冲突。PyBullet是一个广泛用于模拟机器人系统的开源物理引擎,包括关节式机械手、轮式机器人和多智能体交互。它提供实时物理模拟,支持碰撞检测、刚体动力学和机器人学中的强化学习。在MRS的背景下,PyBullet能够准确建模分散式协作、物体操作和动态环境交互。BEHAVIOR-1K由Liu等人使用,作为COHERENT框架的基础,该框架专注于大规模异质多机器人协作。该平台促进了在复杂家庭环境中不同机器人(如机械手、移动底座)必须协调完成日常任务(如餐桌布置、物体交接和多步骤组装过程)的训练和评估。该基准确保LLM增强的系统能够处理动态任务依赖性和模糊的角色分配。Pygame平台是一个跨平台的Python模块集,用于编写视频游戏。机器人被建模为点质量实体,专注于编队控制、分散式共识算法和无需避障的运动协调。该平台特别适用于分析群体中的涌现行为,其中基于LLM的控制器通过简单的局部交互引导自组织编队。Habitat-MAS是Habitat的扩展,引入了明确的多智能体通信,用于室内导航和探索。与其前身的单智能体焦点不同,Habitat-MAS支持合作搜索、同时定位和地图构建(SLAM)以及智能体间策略适应的研究,这对于在灾难响应和服务机器人中部署多机器人探索团队至关重要。ROS-based simulation是一个广泛用于MRS的中间件框架,支持机器人间通信、分散式控制和实时数据共享。它提供了群体协调、协作地图构建和分布式任务分配的基本工具。借助内置的模拟环境(如Gazebo和RViz),ROS使研究人员能够开发和测试MRS策略,用于探索、目标跟踪和协作操作。VR平台引入了沉浸式模拟,用于人机协作和强化学习。这些环境用于测试人类在环控制策略,如通过自然语言指令协调仓库物流中的机械臂和移动机器人。GAMA提供了一个适合大规模机器人交互的多智能体建模环境。它支持分布式群体智能、多智能体任务谈判和行为适应在非结构化环境中的评估,使其成为测试分散式LLM驱动控制器在物流和自主车队管理中的理想选择。SimRobot由Brienza等人使用,专门用于机器人足球中的多机器人团队合作。LLCoach框架使用SimRobot进行训练,通过处理比赛数据并动态优化多智能体角色分配来增强机器人协调和战略规划。ARGoS由Strobel等人选择,是一个可扩展的群体机器人研究平台。它支持对分散式控制机制的受控实验,包括聚集-分散行为、领导者选举和涌现自组织。集成到ARGoS中的LLMs评估其生成自适应通信协议和处理动态环境中任务划分的能力。这些多样化平台为评估LLM驱动的MRS在不同规模上提供了基本工具,从小型协作团队到大型自主群体。通过利用这些环境,研究人员改进了多智能体协调、通信和决策策略,推动了LLMs在MRS中的集成,以实现现实世界应用。
7 挑战与机遇
尽管LLMs在多机器人系统(MRS)中的集成取得了一定进展,但仍然存在限制其广泛采用和有效性的重大挑战。这些挑战涵盖了推理能力、实时性能和适应动态环境等多个方面。解决这些问题对于释放LLMs在MRS中的全部潜力至关重要。本节将识别该领域面临的关键挑战,并概述未来研究的有前景的机遇,为增强LLM驱动的MRS的效用和鲁棒性提供一条研究路线图。
7.1 挑战
数学能力不足LLMs在处理需要精确计算或逻辑推理的任务时表现较差,例如多机器人路径规划或轨迹优化。这一局限性降低了它们在需要高量化精度的场景中的有效性。Mirzadeh等人[60]对几种先进的LLM进行了详细比较和研究,调查了它们的数学理解和问题解决能力。具体来说,LLMs在回答同一问题的不同变体时表现出显著的差异,当仅改变数值时,性能显著下降。此外,它们的推理能力较为脆弱,通常只是模仿训练数据中观察到的模式,而非进行真正的逻辑推理。这种脆弱性在问题中条款数量增加时尤为明显,即使添加的条款与推理链无关,性能也会下降最多65%。这些弱点在多机器人系统中尤其具有挑战性,因为精确计算和稳健推理对于避免碰撞、空间规划和高效任务执行至关重要。解决这些局限性对于在数学密集型应用中可靠地部署LLMs至关重要。幻觉问题LLMs容易生成看似合理但缺乏事实准确性的内容,这种现象被称为幻觉。在MRS中,这一问题尤为严重,因为精确和可靠的输出对于有效的协作和操作至关重要。根据Huang等人[32]对LLMs幻觉的全面调查,幻觉可以分为两种主要类型:事实幻觉和忠实幻觉。事实幻觉涉及生成内容与可验证的现实世界事实之间的差异,导致输出不正确;忠实幻觉则发生在生成的内容偏离用户的指令或提供的上下文时,导致输出无法准确反映预期的信息。在MRS的背景下,这种幻觉可能导致误解、错误决策和机器人之间的协调错误,进而可能影响任务的成功和安全。解决这些挑战需要开发检测和减轻幻觉的方法,确保LLMs生成的输出既真实准确,又符合上下文。现场部署困难目前使用LLMs的选项包括基于服务器的模型,这些模型通常是封闭源代码的,和可以在本地部署的开源模型。基于服务器的模型包括OpenAI GPT[1]、Anthropic Claude[7]和Google Gemini(前身为Bard)[25],而可以本地运行的开源LLM包括Meta Llama[17]、Falcon[3]、Alibaba Qwen[89]以及DeepSeek V3[51]和R1[27]等。基于服务器的模型需要可靠的互联网连接来发送查询并接收响应,因此使得在远程位置(例如典型的现场机器人系统中)部署MRS与LLMs变得不可实现。此外,基于服务器的LLM严重依赖服务器的性能,服务器的故障可能会完全中断基于LLM的系统。这一问题对于多机器人团队尤其重要,因为LLM负责指导机器人之间的协作和决策。另一方面,本地模型虽然避免了对服务器的依赖,但需要足够强大的硬件来本地运行LLM。相对较高的延迟实时信息交换和决策对于MRS在现实场景中的有效操作至关重要。然而,使用LLMs的一个显著挑战在于它们相对较高且可变的响应时间,这可能依赖于模型复杂性、硬件能力和服务器的可用性。例如,Chen等人[12]报告称,在使用OpenAI的GPT-4进行多智能体路径寻找的场景中,每步的响应时间在15到30秒之间,显著影响了实时可行性。虽然在更强大的硬件上进行本地处理可以减少延迟,但这种方法成本较高,且随着机器人数量的增加,扩展性较差。解决这一挑战需要探索优化的LLM架构、高效的推理技术和可扩展的解决方案,在平衡计算需求与实时操作要求之间找到一个合理的折衷。缺乏基准测试性能评估对于LLMs在MRS中的新研究至关重要。然而,现有的基准测试系统主要针对室内环境和家用应用设计,这限制了它们在MRS操作的多样化和不断变化的场景中的适用性。由于当前的研究往往代表了将LLMs应用于MRS的初步尝试,因此性能比较通常侧重于通过与传统方法对比来展示可行性。虽然这种方法对于建立基线具有重要意义,但未来的进展很可能会带来显著的性能和功能提升。一个专门针对多机器人应用的统一基准测试框架,将为研究人员提供一致的度量标准,以评估和量化进展。这样的系统不仅能够帮助更清晰地理解新研究的影响,还能推动标准化和跨研究的可比性,加速这一新兴领域的创新。
7.2 机遇
微调与RAG在领域特定数据集上对LLM进行微调,并结合RAG技术,是提升其在多机器人应用中表现的有前景的途径。微调允许研究人员根据特定任务调整预训练的LLM,提高其上下文理解能力并减少幻觉等问题。RAG通过集成外部知识检索机制,在运行时动态地为LLM提供相关信息。这些技术结合使用,能显著提升LLMs在多样化和复杂的多机器人场景中的准确性、可靠性和适应性。高质量的任务特定数据集创建高质量的任务特定数据集对于推动LLMs在MRS中的能力至关重要。利用更强大的模型,如最新的LLM,生成合成数据集,可以加速为特定任务或环境量身定制训练材料的开发。这些数据集应包括多样化的场景、注重推理的标签和上下文特定的知识,以提高LLMs的问题解决和决策能力。任务特定数据集对于为MRS在开放世界或非结构化环境中操作做好准备尤为重要。高级推理技术提升LLMs的推理能力对于解决其在逻辑和数学任务中的当前局限性至关重要。链式思维(CoT)提示、带有显式推理标签的微调、集成符号推理以及与强化学习(RL)的结合等技术,都能增强LLMs处理复杂多步问题的能力。通过提升推理方法,LLMs能够更好地支持需要精确和逻辑推理的任务,如多机器人路径规划和协调。任务特定和轻量化模型虽然大规模的LLM在性能上具有优势,但它们通常在资源受限的环境中不切实际。开发专门针对多机器人应用的任务特定和轻量化模型,可以缓解这一问题。像SmolVLM、Moondream 2B、PaliGemma 3B和Qwen2-VL 2B等模型,展示了如何通过更小的架构来降低计算需求和延迟,同时在特定任务中保持足够的性能。模型蒸馏是另一种方法,通过从更强大的LLM中提取知识来增强小模型的能力,例如将DeepSeek R1中的知识蒸馏到一个小型的Qwen2.5-Math-1.5B模型中。在现场机器人部署中,平衡效率与效果是实现LLM大规模应用的关键。扩展到非结构化环境目前的大部分应用和基准测试主要集中在室内或结构化环境中,导致在户外和非结构化场景中的应用存在较大空白。研究应优先扩展MRS的能力,以包括在开放世界中的操作,如农业领域、灾区和远程探索地。这些环境中的独特挑战,包括变化性、噪声和不可预测的动态,将扩大LLM驱动的MRS的适用性。最新更强大的LLMs最先进的LLMs的持续发展为MRS开辟了新的可能性。像PaliGemma、Qwen、GPT o3(迷你版)和DeepSeek V3、R1等模型提供了更强的推理、理解和多任务处理能力。将这些先进的模型融入MRS研究,可以通过提供改进的基线性能并启用创新应用来加速进展。探索它们与机器人系统的集成可以进一步推动多机器人团队所能实现的边界。
8 结论
本次调查提供了关于将LLMs(大语言模型)集成到多机器人系统(MRS)中的首次全面探索,这是一个处于机器人技术与人工智能交汇点的课题,正在迅速获得关注。与一般的机器人或多智能体系统不同,MRS由于依赖于物理体现和与现实世界的互动,面临独特的挑战和机遇。本文强调了LLMs如何应对这些挑战,为MRS中的集体智能和协作提供了新的可能性。我们提出了一个结构化框架,以理解LLMs在MRS中的作用,涵盖了高层任务分配与规划、中层运动规划、低层动作执行以及人类干预等内容。这个框架反映了LLMs所启用的多样化功能,包括分解复杂任务、协调多机器人多任务场景和促进无缝的人机互动。此外,我们还回顾了MRS在多个领域中的应用,从家务任务到建筑、队形控制、目标追踪以及游戏/竞赛等,展示了LLMs在这些系统中的多功能性和变革潜力。将LLMs集成到MRS中的意义在于,它们能够增强个体和集体智能,使机器人能够在日益复杂的环境中自主运行并协同工作。随着LLMs在日常应用中展示出其潜力,它们在机器人领域的应用承诺将为MRS带来创新和效率的新可能性。展望未来,短期和长期的研究和发展前景都充满了激动人心的机会。在短期内,解决基准测试、推理能力和实时性能等挑战将是弥合实验室模拟与现实应用之间差距的关键。长期的前景包括利用LLMs实现更复杂的任务,例如灾难响应、太空探索和大规模自主操作,从而拓展MRS的能力边界。我们希望本次调查能为研究人员提供有价值的资源,概述当前的进展,识别研究空白,并突出未来探索的机遇。通过推动我们对LLMs在MRS中应用的理解,我们旨在激发创新,促进跨学科合作,加速从理论研究到实际部署的转变,造福社会。