多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态人工智能系统可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有前景的方法是将它们作为智能体嵌入到物理和虚拟环境中。目前，系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这样的环境有助于模型处理和解释视觉和上下文数据，这对于创建更复杂、更具上下文意识的人工智能系统至关重要。例如，一个能够感知用户行为、人类行为、环境物体、音频表达和场景整体情绪的系统可以用来通知并指导智能体在特定环境中的响应。为了加速基于智能体的多模态智能研究，我们将“智能体AI”定义为一类交互系统，它们能够感知视觉刺激、语言输入和其他基于环境的数据，并能产生具有无限智能体的有意义的具身行动。特别是，我们探索旨在通过整合外部知识、多感官输入和人类反馈来基于下一具身行动预测改进智能体的系统。我们认为，通过在基于环境的环境中开发具有代理性的AI系统，也可以减少大型基础模型的幻觉及其产生环境不正确输出的倾向。新兴的智能体AI领域涵盖了多模态交互的更广泛的具身和具有代理性的方面。除了在物理世界中行动和互动的智能体，我们设想一个未来，人们可以轻松地创建任何虚拟现实或模拟场景，并与嵌入虚拟环境中的智能体互动。

https://www.zhuanzhi.ai/paper/6f80b9d0b7b31d7be3b7f5c64c0d5074

1.1 动机

从历史上看，人工智能系统在1956年达特茅斯会议上被定义为能够从环境中收集信息并以有用的方式与之互动的人工生命形式。受此定义的启发，明斯基的麻省理工学院团队于1970年构建了一个机器人系统，称为“复制演示”，它观察了“块世界”场景并成功地重建了所观察的多面体块结构。该系统包括观察、规划和操作模块，揭示了这些子问题每一个都极具挑战性，需要进一步研究。人工智能领域分化为专门的子领域，这些子领域在独立解决这些问题和其他问题方面取得了巨大进展，但过度还原主义模糊了人工智能研究的总体目标。为了超越现状，有必要回归到由亚里士多德整体论激发的人工智能基础。幸运的是，最近大型语言模型（LLMs）和视觉语言模型（VLMs）的革命使得创造与整体理想一致的新型人工智能智能体成为可能。抓住这个机会，本文探讨了集成语言能力、视觉认知、上下文记忆、直觉推理和适应性的模型。本文探索了使用LLMs和VLMs完成这种整体综合的潜力。在我们的探索中，我们还重新审视了基于亚里士多德的终极原因（系统存在的目的）的系统设计，这在以前的人工智能开发阶段可能被忽视。随着强大的预训练LLMs和VLMs的出现，自然语言处理和计算机视觉领域迎来了复兴。LLMs现在展示了令人印象深刻的能力，能够理解真实世界语言数据的细微差别，常常达到或甚至超越人类专家的能力（OpenAI，2023）。最近，研究人员已经表明，LLMs可能被扩展为在各种环境中充当智能体，当与特定领域的知识和模块结合时，执行复杂的行动和任务（Xi等，2023）。这些场景以复杂的推理、理解智能体的角色及其环境以及多步规划为特征，测试了智能体在其环境约束下做出高度细致和复杂决策的能力（Wu等，2023；Meta Fundamental AI Research（FAIR）外交团队等，2022）。

在这些初步努力的基础上，人工智能界正处于重要的范式转变的边缘，从为被动、结构化任务创建AI模型转变为能够在多样化和复杂环境中扮演动态、有代理性角色的模型。在这个背景下，本文研究了将LLMs和VLMs作为智能体使用的巨大潜力，强调了具有语言能力、视觉认知、上下文记忆、直觉推理和适应性相结合的模型。利用LLMs和VLMs作为智能体，尤其是在游戏、机器人和医疗保健等领域，不仅提供了一个严格评估最先进人工智能系统的平台，而且预示了以智能体为中心的人工智能将在整个社会和行业中产生的变革性影响。当充分利用时，具有代理性的模型可以重新定义人类体验并提升操作标准。这些模型带来的广泛自动化潜力预示着行业和社会经济动态中的巨大变化。这些进步将与多方面的领导力（不仅是技术上的，还有伦理上的）相交织，正如我们将在第11节中详细阐述的那样。我们深入探讨了智能体AI这些子领域的重叠领域，并在图1中展示了它们的相互关联性。

1.2 背景

接下来，我们将介绍支持智能体AI概念、理论背景和现代实现的相关研究论文。

大型基础模型：LLMs和VLMs一直在推动开发通用智能机器的努力（Bubeck等，2023；Mirchandani等，2023）。尽管它们是使用大型文本语料库训练的，但它们的卓越问题解决能力不仅限于规范语言处理领域。LLMs可能处理从数学推理（Imani等，2023；Wei等，2022；Zhu等，2022）到专业法律问题的回答（Blair-Stanek等，2023；Choi等，2023；Nay，2022）等以前被认为是人类专家或特定领域算法专有的复杂任务。最近的研究表明，使用LLMs为机器人和游戏AI生成复杂计划的可能性（Liang等，2022；Wang等，2023a，b；Yao等，2023a；Huang等，2023a），这标志着LLMs作为通用智能智能体的重要里程碑。

具身化AI：许多工作利用LLMs进行任务规划（Huang等，2022a；Wang等，2023b；Yao等，2023a；Li等，2023a），特别是LLMs的WWW级别领域知识和新兴的零样本具身化能力来执行复杂任务规划和推理。最近的机器人研究也利用LLMs进行任务规划（Ahn等，2022a；Huang等，2022b；Liang等，2022），通过将自然语言指令分解为一系列子任务，以自然语言形式或Python代码形式，然后使用低级控制器执行这些子任务。此外，它们结合环境反馈来改进任务性能（Huang等，2022b），（Liang等，2022），（Wang等，2023a），和（Ikeuchi等，2023）。

交互式学习：为交互式学习而设计的AI智能体使用机器学习技术和用户互动的组合操作。最初，AI智能体在大型数据集上进行训练。这个数据集包括各种类型的信息，具体取决于智能体的预期功能。例如，为语言任务设计的AI将在大量文本数据语料库上进行训练。训练涉及使用机器学习算法，可能包括像神经网络这样的深度学习模型。这些训练模型使AI能够识别模式、做出预测，并根据其训练所用的数据生成响应。AI智能体还可以从与用户的实时互动中学习。这种交互式学习可以以多种方式进行：

1）基于反馈的学习：AI根据直接用户反馈调整其响应（Li等，2023b；Yu等，2023a；Parakh等，2023；Zha等，2023；Wake等，2023a，b，c）。例如，如果用户纠正了AI的响应，AI可以使用这些信息来改进未来的响应（Zha等，2023；Liu等，2023a）。2）观察学习：AI观察用户互动并隐式学习。例如，如果用户经常提出类似的问题或以特定方式与AI互动，AI可能会调整其响应以更好地适应这些模式。这允许AI智能体理解和处理人类语言，多模态设置，解释交叉现实-上下文，并生成人类用户的响应。随着时间的推移，随着更多用户互动和反馈，AI智能体的性能通常会持续提高。这个过程通常由人类操作者或开发者监督，他们确保AI适当地学习，不会发展偏见或错误模式。

概述

多模态智能体AI（MAA）是一系列系统，它们基于对多模态感官输入的理解，在给定环境中生成有效行动。随着大型语言模型（LLMs）和视觉-语言模型（VLMs）的出现，多个MAA系统已在从基础研究到应用的领域中被提出。虽然这些研究领域通过与每个领域的传统技术（例如，视觉问答和视觉-语言导航）的集成而迅速发展，但它们共有的兴趣包括数据收集、基准测试和伦理观点。在本文中，我们专注于MAA的一些代表性研究领域，即多模态性、游戏（VR/AR/MR）、机器人学和医疗保健，并旨在提供这些领域中讨论的共同关注点的全面知识。因此，我们期望学习MAA的基础知识，并获得进一步推进其研究的洞察。

具体的学习成果包括： •** MAA概览**：深入了解其原则及在当代应用中的作用，为研究人员提供全面的重要性和用途理解。 • 方法论：详细举例说明LLMs和VLMs如何增强MAAs，并通过在游戏、机器人学和医疗保健领域的案例研究进行说明。 • 性能评估：指导如何使用相关数据集评估MAAs，重点是它们的有效性和泛化能力。 • 伦理考量：讨论部署智能体AI的社会影响和伦理领导力，强调负责任的发展实践。 • 新兴趋势和未来领导力：分类每个领域的最新发展，并讨论未来方向。

计算机基础的行动和通用智能体（GAs）适用于许多任务。要使GA真正对用户有价值，它可以自然地与人交互，并适应广泛的上下文和模态。我们的目标是培育一个充满活力的研究生态系统，并在智能体AI社区中创造共同的身份和目标感。MAA有潜力在各种上下文和模态中得到广泛应用，包括人类的输入。因此，我们相信这个智能体AI领域可以吸引多样化的研究者群体，促进一个充满活力的智能体AI社区和共同目标。在学术界和工业界的著名专家的领导下，我们期望本文将成为一次互动和丰富的体验，完整地包括智能体指导、案例研究、任务会议和实验讨论，确保为所有研究人员提供全面而引人入胜的学习体验。

本文旨在提供关于智能体AI领域当前研究的一般性和全面性知识。为此，本文的其余部分组织如下。第2节概述了智能体AI如何从与相关新兴技术的集成中受益，特别是大型基础模型。第3节描述了我们为训练智能体AI提出的新范式和框架。第4节提供了在智能体AI训练中广泛使用的方法论概述。第5节分类讨论了各种类型的智能体。第6节介绍了智能体AI在游戏、机器人学和医疗保健中的应用。第7节探讨了研究社区开发能够跨越不同模态、领域应用并弥合模拟到实际（sim-to-real）差距的多才多艺的智能体AI的努力。第8节讨论了不仅依赖于预训练的基础模型，而且还通过利用与环境和用户的互动持续学习和自我改进的智能体AI的潜力。第9节介绍了我们为训练多模态智能体AI设计的新数据集。第11节讨论了AI智能体的伦理考虑、局限性和我们论文的社会影响的热门话题。