AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agents是最近热议的焦点，OpenAI AI的应用研究主管Lilian Weng发布了一篇关于AI Agents的万字长文：《大语言模型（LLM）支持的自主代理》引起了行业的热议，在文章中，她清晰地定义了基于LLM构建AI Agents的应用框架：Agent=LLM（大型语言模型）+记忆（Memory）+规划技能（Planning）+工具使用（Tool Use），其中，LLM是智能体的大脑，而其它几个部分，是关键的组件。而最近复旦大学自然语言处理组《大模型智能体》综述论文，提出了一个基于LLM的智能体的概念框架，包括三个主要组成部分：大脑、感知和行动，非常值得关注！

长期以来，人类一直在追求与人类水平相当或超越的人工智能（AI），认为AI智能体是实现这一目标的有前景的工具。AI智能体是能感知环境、做出决策并采取行动的人造实体。自20世纪中叶以来，已经做出了许多努力以发展智能的AI智能体。然而，这些努力主要集中在算法或训练策略的进步上，以提高在特定任务上的特定能力或性能。实际上，这个领域缺乏的是一个足够通用和强大的模型，作为设计能适应多样化场景的AI智能体的起点。由于它们展示出的多功能和出色的能力，大型语言模型（LLMs）被认为是通用人工智能（AGI）的潜在媒介，为构建通用AI智能体提供了希望。许多研究努力已经以LLMs为基础来构建AI智能体，并取得了显著进展。我们首先从其哲学起源追溯智能体的概念，到其在AI中的发展，并解释为什么LLMs是适合作为AI智能体的基础。在此基础上，我们提出了一个基于LLM的智能体的概念框架，包括三个主要组成部分：大脑、感知和行动，该框架可以根据不同的应用进行定制。随后，我们探讨了基于LLM的智能体在三个方面的广泛应用：单智能体场景、多智能体场景和人-智能体合作。接下来，我们深入研究智能体社会，探讨基于LLM的智能体的行为和个性，当它们形成社会时出现的社会现象，以及它们为人类社会提供的洞见。最后，我们讨论该领域内的一系列关键主题和未解决的问题。

人工智能（AI）是一个致力于设计和开发能复制人类智能和能力的系统的领域[1]。早在18世纪，哲学家丹尼斯·狄德罗（Denis Diderot）提出了这样一个观点：如果一只鹦鹉能回应所有问题，那么它可以被认为是智能的[2]。虽然狄德罗指的是像鹦鹉这样的生物，但他的观点强调了一个深刻的概念，即高度智能的生物可能与人类智能相似。到了20世纪50年代，艾伦·图灵（Alan Turing）将这一概念扩展到了人工实体，并提出了著名的图灵测试（Turing Test）[3]。这个测试是AI的基石，旨在探究机器是否能展示与人类相当的智能行为。这些AI实体通常被称为“智能体”，是AI系统的基础构件。在AI中，智能体通常指的是能使用传感器感知其环境、做出决策，然后使用执行器作出反应的人工实体[1; 4]。

智能体这一概念起源于哲学，其根源可追溯到亚里士多德和休谟等思想家[5]。它描述了拥有欲望、信仰、意图和采取行动能力的实体[5]。这个想法转变到了计算机科学中，旨在使计算机能理解用户的兴趣并自主地代表他们采取行动[6; 7; 8]。随着AI的发展， “智能体”这个术语在AI研究中找到了其位置，用以描述展示智能行为并具有自主性、反应性、主动性和社会能力等特质的实体[4; 9]。从那时起，智能体的探索和技术进步成为AI社群关注的焦点[1; 10]。现在，AI智能体被认为是实现通用人工智能（AGI）的重要步骤，因为它们包含了广泛的智能活动的潜力[4; 11; 12]。

从20世纪中期开始，在发展智能AI智能体方面取得了显著进展，因为研究深入探讨了它们的设计和提升[13; 14; 15; 16; 17; 18]。然而，这些努力主要集中在提高特定能力上，如符号推理，或者掌握特定任务，如围棋或国际象棋[19; 20; 21]。在不同场景中实现广泛的适应性依然难以捉摸。此外，先前的研究更多地强调算法和训练策略的设计，而忽视了模型固有通用能力的发展，如知识记忆、长期规划、有效泛化和有效交互[22; 23]。实际上，增强模型的固有能力是智能体进一步发展的关键因素，该领域需要一个具备上述多种关键属性的强大基础模型，作为智能体系统的起点。

大型语言模型（LLMs）的发展为智能体的进一步发展带来了一线希望[24; 25; 26]，并且社群已经取得了显著进展[22; 27; 28; 29]。根据“世界范围（World Scope，WS）”的概念[30]，该概念涵盖了从自然语言处理（NLP）到通用AI的五个层次（即，语料库、互联网、感知、具象和社交），纯粹的LLMs是建立在第二层，具有互联网规模的文本输入和输出。尽管如此，LLMs在知识获取、指令理解、泛化、规划和推理方面展示了强大的能力，同时与人类进行有效的自然语言交互。这些优势赋予了LLMs作为通用人工智能（AGI）的媒介的称号[31]，使它们非常适合用于构建智能体，以促进一个人类与智能体和谐共存的世界[22]。从这一点出发，如果我们提升LLMs到智能体的地位，并赋予它们更广泛的感知空间和行动空间，它们有可能达到WS的第三和第四层次。此外，这些基于LLMs的智能体可以通过合作或竞争来解决更复杂的任务，当将它们放在一起时，可以观察到新出现的社会现象，从而可能达到第五个WS层次。如图1所示，我们设想一个由AI智能体组成的和谐社会，人类也可以参与其中。

在本文中，我们提出了一个全面和系统的调查，重点关注基于大型语言模型（LLM）的智能体，试图研究这个新兴领域的现有研究和前景途径。为此，我们首先深入探讨关键的背景信息（第2部分）。具体来说，我们从哲学到人工智能（AI）领域追溯AI智能体的起源，并简要概述围绕人工智能体存在的争论（第2.1部分）。接下来，我们通过技术趋势的视角提供了AI智能体发展的简明历史回顾（第2.2部分）。最后，我们深入介绍智能体的基本特性，并阐明为什么大型语言模型非常适合作为AI智能体的大脑或控制器的主要组成部分（第2.3部分）。

受到“智能体”定义的启发，我们为基于大型语言模型（LLM）的智能体提出了一个具有三个关键部分的通用概念框架：大脑、感知和行动（第3部分），该框架可以定制以适应不同的应用场景。我们首先介绍大脑，主要由一个大型语言模型组成（第3.1部分）。与人类相似，大脑是AI智能体的核心，因为它不仅储存了关键的记忆、信息和知识，而且还承担了信息处理、决策、推理和规划等基本任务。这是智能体能否展示智能行为的关键决定因素。接下来，我们介绍感知模块（第3.2部分）。对于智能体而言，这个模块的作用与人类的感官器官类似。它的主要功能是将智能体的感知空间从仅限于文本扩展到一个包括文本、声音、视觉、触觉、嗅觉等多种感官模态的多模态空间。这种扩展使智能体能够更好地从外部环境中获取信息。最后，我们介绍用于扩展智能体行动空间的行动模块（第3.3部分）。具体而言，我们希望智能体能够拥有文本输出，进行实体化的行动，并使用工具，以便它能更好地响应环境变化，提供反馈，甚至改变和塑造环境。

然后，我们提供了基于大型语言模型的智能体的实用应用的详细而全面的介绍，并阐明了基础设计追求——“为了公益而驾驭AI”（第4部分）。首先，我们深入研究单一智能体的当前应用，并讨论它们在基于文本的任务和模拟探索环境中的表现，重点介绍它们在处理特定任务、推动创新以及展示类似人类的生存技能和适应性方面的能力（第4.1部分）。接下来，我们回顾了多智能体发展历史。我们介绍了基于LLM的多智能体系统应用中智能体之间的互动，其中它们参与合作、谈判或竞争。无论互动模式如何，智能体都共同努力实现共享目标（第4.2部分）。最后，考虑到基于LLM的智能体在隐私安全、道德约束和数据不足等方面可能存在的局限性，我们讨论了人-智能体合作。我们总结了智能体与人之间合作的范例：指导者-执行者范例和平等合作范例，以及具体的实践应用（第4.3部分）。

基于对基于大型语言模型（LLM）的智能体在实际应用中的探索，我们现在将焦点转向“智能体社会”的概念，研究智能体与其周围环境之间的复杂相互作用（§ 5）。本节首先调查这些智能体是否表现出类人行为并具有相应的个性（§5.1）。此外，我们介绍智能体所操作的社交环境，包括基于文本的环境、虚拟沙盒和物理世界（§5.2）。与前一节（§ 3.2）不同，这里我们将关注多种类型的环境，而非智能体如何感知它。在建立了智能体和他们环境的基础之后，我们继续揭示他们形成的模拟社会（§5.3）。我们将讨论模拟社会的构建，并进一步研究其中出现的社会现象。具体来说，我们将强调模拟社会中固有的教训和潜在风险。

最后，我们讨论了基于大型语言模型的智能体领域的一系列关键主题和未解决的问题（§ 6）：（1）LLM研究和智能体研究的相互益处和灵感，其中我们展示了基于LLM的智能体的发展为智能体和LLM社群提供了许多机会（§ 6.1）；（2）现有的评估工作以及从四个维度对基于LLM的智能体的一些前景，包括实用性、社交性、价值观和持续演化的能力（§ 6.2）；（3）基于LLM的智能体的潜在风险，我们讨论了基于LLM的智能体的对抗性鲁棒性和可信度。我们还包括了其他风险的讨论，如滥用、失业和对人类福祉的威胁（§ 6.3）；（4）扩大智能体数量，我们讨论了扩大智能体数量的潜在优点和挑战，以及静态和动态扩展的方法（§ 6.4）；（5）几个未解决的问题，例如关于基于LLM的智能体是否代表通往AGI（人工通用智能）的潜在途径的争论，从虚拟模拟环境到物理环境的挑战，AI智能体中的集体智能，以及智能体作为一项服务（§ 6.5）。总之，我们希望本文能给相关领域的研究人员和从业者带来启发。

智能体的诞生：基于大型语言模型（LLM）的智能体构建

“适者生存”[131]表明，如果一个个体想在外部环境中生存，他必须有效地适应周围环境。这要求他具有认知能力，能够感知和响应外界的变化，这与第2.1节中提到的“智能体”的定义是一致的。受此启发，我们提出了一个基于大型语言模型（LLM）的智能体的一般概念框架，该框架由三个关键部分组成：大脑、感知和行动（见图2）。我们首先描述大脑的结构和工作机制，它主要由一个大型语言模型组成（§ 3.1）。大脑是AI智能体的核心，因为它不仅储存了知识和记忆，而且还承担了信息处理和决策等不可或缺的功能。它可以呈现推理和规划的过程，并且能够很好地应对未见过的任务，展现出智能体的智能。接下来，我们介绍感知模块（§ 3.2）。其核心目的是将智能体的感知空间从仅限于文本的领域扩展到包括文本、听觉和视觉模式的多模态范围。这一扩展使智能体能更有效地掌握和利用来自其周围环境的信息。最后，我们介绍了旨在扩展智能体行动空间的行动模块（§ 3.3）。具体来说，我们赋予智能体具体的行动能力和使用工具的技能，使其能够熟练地适应环境变化，提供反馈，甚至影响和塑造环境。

该框架可以针对不同的应用场景进行定制，即并非所有研究中都会使用每一个特定组件。一般来说，智能体按照以下工作流程进行操作：首先，感知模块，相当于人类的感官系统如眼睛和耳朵，感知外部环境的变化，然后将多模态信息转换为智能体能理解的表示形式。随后，作为控制中心的大脑模块进行信息处理活动，例如思考、决策以及与存储（包括记忆和知识）相关的操作。最后，与人类四肢相对应的行动模块，在工具的协助下进行执行，并对周围环境产生影响。通过重复以上过程，智能体可以持续地获得反馈并与环境互动。