多年来,我的梦想是创建能够处理繁琐程序性任务的自主AI智能体(例如安排会议差旅),以便让我能够专注于创意工作。现代AI模型,尤其是像ChatGPT这样的大型语言模型(LLMs),使我们距离这个目标越来越近。但我的梦想已经实现了吗?本论文涵盖了2020年至2024年间的AI智能体研究,承认LLMs是广泛AI智能体应用中的一个关键但早期的步骤。尽管LLMs在处理定义明确的任务(例如撰写电子邮件)方面表现出色,但它们在处理需要智能体理解和应用“操作知识”的程序性任务时仍存在困难,特别是在动态交互中。当前的LLMs在复杂的程序性任务中表现不一致。本论文的目标是创建能够在不断变化的环境中以准确性、稳健性和可靠性执行程序性任务的AI智能体,围绕以下三个关键支柱展开。
首先,我们研究了AI智能体的评估方法,以系统地理解智能体的行为。目前缺乏能够模拟现实世界复杂性、模拟多样且复杂的人类任务,并支持动态交互的基准来进行系统评估。这导致了现有评估只部分反映现实场景。我们创建了一个涵盖交互式网页任务(例如在线预订匹兹堡机场附近的酒店房间)的综合基准,符合这些标准,并开发了更为健全的评估指标。我们的工作揭示了基于LLM的智能体在实际交互任务中的不足,并提供了一个易于使用的环境以推动该领域的发展。
其次,我们通过为AI智能体设计一种更灵活的“语言”来增强其表达能力。除了知识之外,人类在执行程序性任务时展现了极大的灵活性:我们将任务分解为更小的子任务,利用过去的经验,使用工具等。用非结构化文本表示这种灵活性是非常具有挑战性的。我们设计了一种新形式化方法,将任务解决等同于编写Python程序。程序固有的表达能力和结构化特性使AI智能体能够更准确、明确地表示复杂的过程(例如,规划子任务→组合嵌套函数,记忆回忆→重用函数)。这种新形式化方法增强了LLMs在推理和执行程序性任务中的能力,显著提高了任务执行的准确性。
最后,我们开发了资源并设计了创新的方法,以使智能体能够适应陌生任务。对于LLMs而言,处理其训练语料库中未包含或稀疏包含的信息是一个特别大的挑战。因此,LLMs可以从访问外部知识中获益。我们研究了如何通过对人类编写的外部知识(例如手册)进行细致的任务分解,使其对AI智能体可理解。我们还提出了通过检索实现的知识增强执行的新机制,这使智能体能够通过参考外部知识以及通过数据合成来执行复杂任务。这两种方法绕过了对精确示范的依赖。