《大型多模态智能体》综述

大型语言模型（LLMs）在推动文本基础的智能体方面已经取得了超群的性能，赋予它们类似人类的决策和推理能力。与此同时，一个新兴的研究趋势集中于将这些LLM驱动的智能体扩展到多模态领域。这种扩展使得智能体能够解释和响应多样化的多模态用户查询，因此处理更复杂和细腻的任务。在本文中，我们对LLM驱动的多模态智能体进行了系统性回顾，我们将其称为大型多模态智能体（简称LMAs）。首先，我们介绍了开发LMAs所涉及的基本组件，并将现有研究分类为四种不同类型。随后，我们回顾了集成多个LMAs的协作框架，增强了集体效能。该领域的一个关键挑战是现有研究中使用的多样化评估方法，妨碍了不同LMAs之间的有效比较。因此，我们汇编了这些评估方法并建立了一个全面框架来弥合差距。该框架旨在标准化评估，促进更有意义的比较。在我们的回顾中，我们强调了LMAs的广泛应用并提出了可能的未来研究方向。我们的讨论旨在为这个迅速发展的领域的未来研究提供有价值的见解和指南。最新的资源列表可在 https://github.com/jun0wanan/awesome-large-multimodal-agents 上找到。

智能体是一个能够感知其环境并基于这些感知做出决策以实现特定目标的系统[56]。虽然在狭窄的领域内熟练，早期的智能体[35, 50]往往缺乏适应性和泛化能力，这凸显了与人类智能之间的显著差异。近期在大型语言模型（LLMs）方面的进展开始弥合这一差距，其中LLMs增强了它们在命令解释、知识同化[36, 78]以及模仿人类推理和学习[21, 66]方面的能力。这些智能体将LLMs作为其主要的决策制定工具，并进一步增强了关键的类人特征，如记忆。这种增强使它们能够处理各种自然语言处理任务，并使用语言与环境互动[40, 38]。

然而，现实世界场景往往涉及超越文本的信息，包含多个模态，特别强调视觉方面。因此，LLM驱动的智能体的下一个进化步骤是获得处理和生成多模态信息的能力，特别是视觉数据。这一能力对于这些智能体进化成更强大的AI实体至关重要，以反映人类级别的智能。装备有这种能力的智能体在我们的论文中被称为大型多模态智能体（LMAs）。通常，它们面临的挑战比仅语言的智能体更为复杂。以网络搜索为例，LMA首先需要用户需求的输入，通过搜索栏查找相关信息。随后，它通过鼠标点击和滚动导航到网页，浏览实时网页内容。最后，LMA需要处理多模态数据（例如，文本、视频和图像）并执行多步骤推理，包括从网页文章、视频报道和社交媒体更新中提取关键信息，并整合这些信息以响应用户的查询。我们注意到，现有的LMA研究是孤立进行的，因此有必要通过总结和比较现有框架来进一步推进该领域。存在几项与LLM驱动的智能体[60, 42, 49]相关的综述，而其中很少有关注多模态方面。

在这篇论文中，我们旨在通过总结LMAs的主要发展来填补这一空白。首先，我们介绍了核心组件（§2）并提出了现有研究的新分类法（§3），随后进一步讨论了现有的协作框架（§4）。关于评估，我们概述了评估LMAs性能的现有方法，随后提供了一个全面的总结（§5）。然后，应用部分提供了多模态智能体及其相关任务的广泛实际应用的详尽概览（§6）。我们通过讨论并建议LMAs可能的未来方向来结束这项工作，以提供有用的研究指导。

LMAs的核心组件

在本节中，我们详细介绍了LMAs的四个核心元素，包括感知、规划、行动和记忆。感知。感知是一个复杂的认知过程，使人类能够收集和解释环境信息。在LMAs中，感知组件主要专注于处理来自多样化环境的多模态信息。如表1所示，不同任务中的LMAs涉及各种模态。它们需要从这些不同模态中提取对任务完成最有益的关键信息，从而促进任务的更有效规划和执行。

早期关于处理多模态信息的研究[57, 43, 70, 9]经常依赖于简单的相关模型或工具，将图像或音频转换成文本描述。然而，这种转换方法往往会产生大量不相关和冗余的信息，尤其是对于复杂的模态（例如，视频）。随着输入长度的限制，LLMs在有效提取规划所需的相关信息方面经常面临挑战。为了解决这个问题，最近的研究[71, 47]引入了子任务工具的概念，这些工具旨在处理复杂的数据类型。在类似真实世界的环境中（即，开放世界游戏），[51]提出了一种处理非文本模态信息的新方法。这种方法首先从环境中提取关键的视觉词汇，然后使用GPT模型进一步将这些词汇细化为一系列描述性句子。当LLMs在环境中感知视觉模态时，它们使用这些模态来检索最相关的描述性句子，有效地增强了它们对周围环境的理解。

规划。规划者在LMAs中扮演着类似于人脑功能的核心角色。它们负责对当前任务进行深入推理并制定相应的计划。与仅语言的智能体相比，LMAs在更复杂的环境中运行，使得制定合理计划更具挑战性。我们从四个角度详细介绍规划者（模型、格式、检查与反思以及规划方法）：

模型：如表1所示，现有研究采用不同的模型作为规划者。其中，最受欢迎的是GPT-3.5或GPT-4[43, 41, 9, 30, 57, 51]。然而，这些模型并非公开可用，因此一些研究已开始转向使用开源模型，如LLaMA[67]和LLaVA[23]，后者可以直接处理多种模态的信息，增强了制定更优化计划的能力。

格式：它表示规划者制定计划的方式。如表1所示，有两种格式化方式。第一种是自然语言。例如，在[41]中，获得的规划内容是“我做的第一件事是使用OpenCV的openpose控制模型来分析图像中男孩的姿势...”，其中制定的计划是使用“OpenCV的openpose控制模型”。第二种是以程序形式，如“image_patch = ImagePatch(image)”所述[43]，它调用ImagePatch函数来执行规划。还有混合形式，如[9]。

检查与反思：对于LMAs而言，在复杂的多模态环境中持续制定有意义且能完成任务的计划是具有挑战性的。这个组件旨在增强鲁棒性和适应性。一些研究方法[51, 52]将成功的经验存储在长期记忆中，包括多模态状态，以指导规划。在规划过程中，它们首先检索相关经验，帮助规划者进行深思熟虑，以减少不确定性。此外，[12]利用人在执行相同任务时在不同状态下制定的计划。当遇到类似状态时，规划者可以参考这些“标准答案”进行思考，从而制定更合理的计划。此外，[71]采用更复杂的规划方法，如蒙特卡罗，以扩大规划搜索范围，找到最佳规划策略。

规划方法：现有的规划策略可以分为两种类型：动态规划和静态规划，如表1所示。前者[57, 43, 70, 30, 41]指的是基于初始输入将目标分解为一系列子计划，类似于思维链（CoT）[80]，其中即使在过程中出现错误，计划也不会重新制定；后者[9, 25, 51, 71]意味着每个计划都是基于当前环境信息或反馈制定的。如果在计划中检测到错误，它将回到原始状态进行重新规划[12]。

行动。多模态智能体系统中的行动组件负责执行规划者制定的计划和决策。它将这些计划转化为具体的行动，例如使用工具、身体运动或与界面的互动，从而确保智能体能够准确高效地实现其目标并与环境互动。我们的讨论集中在两个方面：类型和方法。

记忆。早期研究表明，记忆机制在通用智能体的运作中发挥着至关重要的作用。与人类相似，智能体中的记忆可以分为长期记忆和短期记忆。在简单的环境中，短期记忆足以让智能体处理手头任务。然而，在更复杂和现实的设置中，长期记忆变得至关重要。在表1中，我们可以看到，只有少数LMAs包含长期记忆。与仅语言的智能体不同，这些多模态智能体需要能够存储跨各种模态信息的长期记忆。在一些研究[71, 47, 69, 7]中，所有模态都转换为文本格式进行存储。然而，在[51]中，提出了一个多模态长期记忆系统，专门设计用于存档之前的成功经验。具体来说，这些记忆以键值对的形式存储，其中键是多模态状态，值是成功的计划。

LMAs的分类

在本节中，我们通过将现有研究分类为四种类型来呈现LMAs的分类。 类型I：封闭源LLMs作为规划者且不带长期记忆。早期研究[11, 43, 57, 41, 9, 25]使用提示来利用封闭源的大型语言模型（例如，GPT-3.5）作为推理和规划的规划者，如图2(a)所示。根据特定环境或任务要求，这些计划的执行可能通过下游工具包或通过使用物理设备（如鼠标或机械臂）与环境直接互动来进行。这种类型的LMAs通常在更简单的设置中操作，承担传统任务，如图像编辑、视觉定位和视觉问答（VQA）。

类型II：微调LLMs作为规划者且不带长期记忆。这种类型的LMAs涉及收集多模态指令跟随数据或使用自我指导来微调开源大型语言模型（如LLaMA）[67]或多模态模型（如LLaVA）[23, 46]，如图2(b)所示。这种增强不仅允许模型作为推理和规划的中心“大脑”，还能执行这些计划。类型II LMAs面临的环境和任务与类型I相似，通常涉及传统的视觉或多模态任务。与以相对简单的动态、封闭环境和基本任务为特征的典型场景相比，像Minecraft这样的开放世界游戏中的LMAs需要在动态上下文中执行精确规划，处理高复杂性任务，并进行终身学习以适应新挑战。因此，在类型I和类型II的基础上，类型III和类型IV LMAs整合了记忆组件，在发展成为人工智能领域的通用智能体方面显示出巨大的潜力。

类型III：带有间接长期记忆的规划者。对于类型III LMAs[71, 47]，如图2(c)所示，LLMs作为中心规划者并配备了长期记忆。这些规划者通过调用相关工具访问和检索长期记忆，利用这些记忆进行增强的推理和规划。例如，在[71]中开发的多模态智能体框架专为动态任务（如视频处理）量身定制。该框架由规划者、工具包和一个任务相关的记忆库组成，该记忆库记录了空间和时间属性。规划者使用专门的子任务工具查询记忆库以获取与视频内容相关的时空属性，使其能够对任务相关的时空数据进行推断。每个工具都存储在工具包内，专为特定类型的时空推理设计，并在框架内充当执行器。

类型IV：带有原生长期记忆的规划者。与类型III不同，类型IV LMAs[51, 37, 7, 76]的特点是LLMs直接与长期记忆交互，绕过了使用工具访问长期记忆的需要，如图2(d)所示。例如，在[51]中提出的多模态智能体在Minecraft的开放世界背景下完成了200多个不同任务的熟练度。在他们的多模态智能体设计中，交互式规划者将多模态基础模型与LLM合并，首先将环境的多模态输入转换为文本。规划者进一步采用自我检查机制来预测和评估执行中的每一步，主动发现潜在缺陷，并结合环境反馈和自我解释，迅速纠正和优化计划，无需额外信息。此外，这个多模态智能体框架包括一个新颖的多模态记忆。成功的任务计划及其初始多模态状态被存储，规划者从这个数据库中检索新任务的相似状态，使用积累的经验实现更快、更高效的任务完成。

多智能体协作

我们在这一节进一步介绍了超出单独智能体讨论范围的LMAs的协作框架。如图3(a)(b)所示，这些框架采用多个LMAs协同工作。两个框架之间的关键区别在于是否具有记忆组件，但它们的基本原则是一致的：多个LMAs拥有不同的角色和责任，使它们能够协调行动，共同实现一个共同目标。这种结构减轻了单一智能体的负担，从而提高了任务性能[12, 37, 17, 29]。

例如，在表1中，在[37]的多模态智能体框架中，引入了一个感知者智能体来感知由大型多模态模型组成的多模态环境。一个被指定为巡逻者的智能体负责与感知者智能体进行多次互动，对感知到的环境数据进行实时检查和反馈，以确保当前计划和行动的准确性。当检测到执行失败或需要重新评估时，巡逻者向规划者提供相关信息，促使在子目标下的行动序列进行重新组织或更新。MemoDroid框架[17]包含了几个关键的智能体，它们协同工作以自动化移动任务。探索智能体负责目标应用界面的离线分析，基于UI元素生成潜在子任务列表，然后将其存储在应用记忆中。在在线执行阶段，选择智能体根据用户命令和当前屏幕状态从探索集合中确定要执行的特定子任务。推断智能体进一步通过提示LLM识别并完成所选子任务所需的底层动作序列。同时，当遇到与以前学习的任务相似的任务时，回忆智能体可以直接从记忆中调用并执行相应的子任务和动作序列

结论

在这篇综述中，我们提供了由大型语言模型（LLMs）驱动的多模态智能体（LMAs）的最新研究的全面概述。我们首先介绍LMAs的核心组件（即感知、规划、行动和记忆），并将现有研究分类为四个类别。随后，我们编译了评估LMAs的现有方法，并设计了一个全面的评估框架。最后，我们聚焦于LMAs领域内一系列当前和重要的应用场景。尽管取得了显著进展，这一领域仍面临许多未解决的挑战，并且有相当大的改进空间。基于回顾的进展，我们最终强调了几个有前景的方向：

关于框架：LMAs的未来框架可能会从两个不同的视角发展。从单个智能体的角度来看，发展可能会向创建更统一的系统进步。这涉及规划者直接与多模态环境互动[71]，利用一套全面的工具[30]，并直接操作记忆[51]；从多个智能体的角度来看，推进多个多模态智能体之间的有效协调以执行集体任务成为一个关键的研究方向。这包括协作机制、通信协议和战略任务分配等基本方面。

关于评估：这个领域迫切需要系统和标准的评估框架。理想的评估框架应包括一系列评估任务[58, 16]，从简单到复杂不等，每个任务都具有显著的相关性和对人类的实用性。它应该包含清晰和明智的评估指标，精心设计以全面且非重复的方式评估LMA的多样化能力。此外，用于评估的数据集应该被精心策划，以更接近地反映现实世界场景。

关于应用：LMAs在现实世界中的潜在应用是巨大的，为以前对传统模型来说具有挑战性的问题提供解决方案，例如网页浏览。此外，LMAs与人机交互领域的交集[54, 44]代表了未来应用的一个重要方向。它们处理和理解来自不同模态的信息的能力使它们能够执行更复杂和细腻的任务，从而增强它们在现实世界场景中的实用性，并改善人与机器之间的互动。

成为VIP会员查看完整内容