构建能与世界互动的自主代理是人工智能(AI)的核心。本论文引入了“语言代理”,这是一类新的代理,它们利用大型语言模型(LLMs)进行推理以采取行动,标志着与传统通过广泛规则设计或学习的代理的一种转变。它分为三个部分开发:
第一部分通过介绍基于与大规模、真实世界计算环境(如互联网或代码接口)的互动的一组新的AI问题和基准,激发了对语言代理的需求。这些“数字自动化”任务为减轻繁琐的劳动和改善我们的生活提供了巨大的价值,但对于以前的代理或LLM方法在开放式自然语言和长期决策方面提出了重大挑战,这需要新的方法论。 第二部分为语言代理奠定了方法论基础,其核心思想是应用LLM推理来实现多功能和可泛化的代理行动和计划,这也通过外部反馈和内部控制增强了LLM的推理,使其更加扎根和深思熟虑。我们展示了语言代理能解决多种语言和代理任务(特别是在第一部分提出的数字自动化任务),并在先前基于LLM的方法和传统代理上取得了显著的改进。 第三部分综合了第一部分和第二部分的洞察,并概述了一个有原则的语言代理框架。该框架提供了模块化抽象,以组织各种基于LLM的方法作为代理,理解它们与人类认知的差距,并激发并开发新方法,朝向通用目的的自主代理。从基础的经验任务和方法到统一的概念框架,本论文建立了语言代理作为AI研究前沿的一个独特且严谨定义的领域的研究。
构建能与各种环境互动的自主代理是人工智能(AI)的核心问题[266]。从高层次上来说,这篇论文提出了一种全新的代理类型和一种全新的环境类型(图1.1): • 现有的代理要么主要遵循特定领域的规则来行动(基于规则的代理,如DeepBlue [38]、Eliza [272]或Shaky the robot [229]),要么主要在特定领域数据上进行训练以行动(基于学习的代理,如AlphaGo [281]、Atari DQN [206]或用于手部操控的ADR [8])。本论文介绍了语言代理,这些代理利用语言模型进行推理以行动,这减轻了构建传统代理所需的密集型特定领域努力,并且在各种领域中实现了少量样本的泛化。这代表了构建通用自主代理目标的一个重大步骤。 • 现有代理要么与人类或物理世界互动(实用但不可扩展),要么与游戏或模拟互动(可扩展但不实用)。这篇论文引入了数字自动化,一种新型任务,其中代理与大规模真实世界数字环境(如互联网)互动。这为代理在开放式行动和长期视野上做出决策提供了新的挑战,同时也提供了巨大的机会来减轻我们的数字劳动并发现新知识。 传统代理和环境有什么问题?在传统基于规则或基于学习的代理可能也能感知和用语言行动的情况下,“语言代理”的定义是什么?为什么我们必须转向大规模真实世界数字环境来进一步发展,而不是使用传统的代理测试床如游戏?我将简要使用文本冒险游戏领域来阐述这些点并激发论文的其余部分。