摘要—终身学习,也称为持续学习或增量学习,是推进人工通用智能(AGI)的关键组成部分,通过使系统在动态环境中持续适应。尽管大规模语言模型(LLM)在自然语言处理领域展现了出色的能力,但现有的LLM智能体通常是为静态系统设计的,缺乏根据新挑战随时间适应的能力。本调查是首个系统总结将终身学习纳入基于LLM的智能体的潜在技术的文献。我们将这些智能体的核心组件分为三个模块:感知模块,用于多模态输入的集成;记忆模块,用于存储和检索不断发展的知识;以及行动模块,用于与动态环境的实际互动。我们强调这三个支柱如何共同实现持续适应,缓解灾难性遗忘,并提高长期性能。本调查为从事基于LLM智能体的终身学习能力开发的研究人员和从业人员提供了一条发展路线图,提供了关于新兴趋势、评估指标和应用场景的见解。相关文献和资源可通过以下链接获取:

https://github.com/qianlima-lab/awesome-lifelong-llm-agent.

关键词—终身学习,持续学习,增量学习,大规模语言模型,智能体,人工通用智能(AGI)

1 引言

“智慧是适应变化的能力。” ——斯蒂芬·霍金

终身学习[1],[2],也称为持续学习或增量学习[3],[4],已成为智能系统发展的关键焦点。如图1所示,终身学习近年来吸引了越来越多的研究关注,它在使这些系统能够持续适应并不断改进方面起着至关重要的作用。正如Legg等人[5]所指出的,人的智能本质上是快速适应广泛环境的能力,这突显了人工智能系统展现同样适应性的需求。终身学习指的是系统在避免遗忘已学知识的同时,获取、整合和保持新知识的能力。对于那些在动态复杂环境中运行的系统,尤其重要,因为这些环境中常常出现新的任务和挑战。与传统的机器学习模型不同,后者通常在固定数据集上进行训练并优化以执行特定任务,终身学习系统则被设计为能够不断演变。它们随着遇到新情境而积累新知识并持续完善其能力。 尽管终身学习具有潜力,但目前人工智能的进展与终身学习的实际应用之间仍存在显著的差距。虽然人类能够自然地整合新知识并保留旧知识,但当前的人工智能系统在终身学习方面面临两大挑战:灾难性遗忘[6]和可塑性丧失[7],[8]。这些挑战形成了稳定性与可塑性困境[9]。一方面,灾难性遗忘指的是当系统学习新任务时,会忘记之前学到的信息,特别是在环境发生变化时尤为突出。另一方面,可塑性丧失则指系统无法适应新任务或新环境。这两者代表了学习谱系的两个对立端:静态系统避免遗忘,但缺乏适应能力;而注重适应的系统则面临遗忘过去知识的风险。克服这一困境是推动人工智能发展的关键,也是实现人工通用智能(AGI)[5]的基础性挑战。

1.1 构建终身学习LLM智能体的动机

近年来,大规模语言模型(LLM)[11],[12]的进展显著改变了自然语言处理领域。像GPT-4[12]这样的模型通过学习海量的文本数据,能够处理并生成类人文本。它们在文本生成、机器翻译和问答等任务中表现出色,得益于其理解复杂语言模式的能力。然而,传统的LLM[11],[12]在训练完成后是静态的,这意味着它们无法在部署后适应新任务或环境。它们的知识是固定的,且无法在不重新训练的情况下整合新信息,这限制了它们在动态现实场景中的应用。与此相比,LLM智能体代表了更高级的人工智能形式。不同于标准的LLM,这些智能体[13],[14]是能够与环境互动的自治实体。LLM智能体能够感知多模态数据(例如文本、图像、传感数据),将这些信息存储在记忆中,并采取行动影响或响应其周围环境[15]–[17]。它们被设计为不断适应新情境,随着与环境的互动和经验的积累,智能体的决策能力得以不断提高。图2和图3提供了相关示意图。

将终身学习融入LLM智能体的动机源于开发能够不仅适应新任务,还能在广泛的动态环境中保留并应用先前知识的智能系统的需求,这与Legg等人[5]将智能定义为快速适应广泛环境的观点相契合。目前,现有的LLM智能体通常被开发为静态系统,限制了它们在面对新挑战时的演变能力。此外,大多数关于LLM的终身学习研究[1],[4]集中于处理不断变化的数据分布,而非与环境进行互动。例如,通过持续微调LLM以适应特定领域的指令[1]。然而,这些方法仍将LLM视为静态黑箱系统,并未解决LLM在真实世界环境中进行互动学习的实际需求。图2比较了传统的终身学习范式与本调查中讨论的、LLM智能体与动态环境互动的新范式。 在现实世界的应用中,LLM智能体需要适应多样的环境,如游戏、网页浏览、购物、家庭任务和操作系统,而无需为每个新情境设计单独的智能体。通过引入终身学习能力,这些智能体可以克服这一局限性。它们能够持续学习并存储来自多种模态(如视觉、文本、传感数据)的知识,使其在环境变化时能够进行实时适应和决策[18]–[21]。将终身学习融入LLM智能体,可以释放它们在动态现实应用中的全部潜力[22],[23]。因此,这些智能体能够不断演变、获得新知识,并保持关键信息,从而增强其适应性和多功能性。这个持续学习的过程对那些挑战不断出现的环境尤为重要,如自主机器人、互动助手和自适应决策支持系统[14]。图4展示了一个终身学习的LLM智能体示意图。

1.2 本调查的范围

本调查提供了关于基于LLM的智能体终身学习系统的关键概念、技术和挑战的全面概述。作为首个系统总结将终身学习纳入LLM智能体的潜在技术的文献,本调查将重点回答以下研究问题(RQ): RQ1:为终身学习设计的LLM智能体的核心概念、开发流程和基本架构是什么?(第3节) RQ2:LLM智能体如何持续感知和处理单模态和多模态数据,以适应新环境和任务?(第4、5节) RQ3:什么策略可以减轻灾难性遗忘并保留已学知识?(第6、7、8、9节) RQ4:LLM智能体如何在动态环境中执行各种动作,如扎根、检索和推理?(第10、11、12节) RQ5:评估终身学习在LLM智能体中表现的评估指标和基准是什么?(第13节) RQ6:终身学习LLM智能体的现实应用和使用案例是什么?它们如何从持续适应中受益?(第14节) RQ7:开发LLM智能体终身学习面临的关键挑战、局限性和未解问题是什么?(第15节) 通过回答这些研究问题,本调查作为理解LLM智能体中终身学习的设计、挑战和应用的逐步指南。它回顾了最前沿的技术,并突出了新兴趋势和未来的研究方向。

1.3 本调查的贡献

据我们所知,这是首个系统回顾终身学习与LLM智能体交叉领域最新进展的调查。本调查的主要贡献如下:

  • 基础概述:提供了实现LLM智能体终身学习的基础概念和架构的全面概述。
  • 深入的组件分析:分析了感知、记忆和行动模块等关键组件,这些组件使LLM智能体能够进行适应性行为。
  • 全面讨论:讨论了现实世界应用、评估指标、基准,以及终身学习LLM智能体领域的关键挑战和未来研究方向。

1.4 调查结构

本调查的结构如下:第2节回顾了关于LLM智能体和终身学习的相关调查和文献;第3节介绍了为终身学习设计的LLM智能体的基础概念、开发流程和整体架构;第4和第5节从感知角度讨论了终身学习LLM智能体的设计,分别聚焦于单模态和多模态方法;第6、7、8和9节从记忆角度探讨了LLM智能体的设计,涉及工作记忆、情节记忆、语义记忆和参数记忆;第10、11和12节从行动角度探讨了LLM智能体的设计,包括扎根动作、检索动作和推理动作;第13节介绍了评估终身学习LLM智能体表现的评估指标和基准;第14节深入讨论了终身学习LLM智能体的现实应用和使用案例;第15节提供了实践洞察并概述了未来的研究方向;最后,第16节总结了本调查。

终身学习,也称为持续学习或增量学习,基于这样一个理念:智能系统应该像人类一样,持续地获取、完善和保留知识,贯穿整个生命周期。与传统的机器学习方法不同,传统方法假设数据集是固定的、静态的,而终身学习框架则面临数据和任务随时间演变的现实,模型必须在不遗忘已掌握技能的前提下进行适应。图5展示了终身学习发展的示意图。

终身学习的基于LLM的智能体架构旨在持续适应、整合并优化其在一系列任务和环境中的行为。在本小节中,我们识别了三个关键模块——感知、记忆和行动——它们共同支持终身学习。这个划分遵循了先前工作中提出的框架[14],但有一个显著的不同:我们没有保留“脑”模块,而是采用了[14]中提出的“记忆”模块,具有更清晰的功能性和改进的模块化结构。 每个模块相互作用,确保智能体能够处理新信息、保留有价值的知识并选择适应当前情境的合适行动。这三个模块的设计理念来源于智能体的需求:(i) 感知和解读不断变化的数据,(ii) 存储和管理来自过去经验的知识,(iii) 执行适应变化环境的任务。 这三个模块构成了一个动态反馈回路:感知模块将新信息传递给记忆模块,在记忆模块中进行存储和处理。记忆模块随后引导行动模块,影响环境并为未来的感知提供信息。通过这一持续循环,智能体不断完善其知识,提升适应性,最终提高其在复杂动态环境中的表现。

接下来,我们将详细描述每个模块,分析其设计如何贡献于智能体的终身学习能力。图6展示了整体架构的示意图,图7总结了后续章节的组织结构。

成为VIP会员查看完整内容
25

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
33+阅读 · 2024年12月22日
多模态可解释人工智能综述:过去、现在与未来
专知会员服务
40+阅读 · 2024年12月20日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
38+阅读 · 2024年12月1日
从PINNs到PIKANs:物理信息机器学习的最新进展
专知会员服务
36+阅读 · 2024年10月27日
多模态持续学习的最新进展:综合综述
专知会员服务
43+阅读 · 2024年10月10日
迈向通用工业智能:工业物联网增强的持续大模型综述
专知会员服务
42+阅读 · 2024年9月4日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
36+阅读 · 2024年8月9日
贝叶斯迁移学习: 迁移学习的概率图模型概述
专知会员服务
69+阅读 · 2021年10月17日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
当深度强化学习遇见图神经网络
专知
225+阅读 · 2019年10月21日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
26+阅读 · 2017年7月9日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
33+阅读 · 2024年12月22日
多模态可解释人工智能综述:过去、现在与未来
专知会员服务
40+阅读 · 2024年12月20日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
38+阅读 · 2024年12月1日
从PINNs到PIKANs:物理信息机器学习的最新进展
专知会员服务
36+阅读 · 2024年10月27日
多模态持续学习的最新进展:综合综述
专知会员服务
43+阅读 · 2024年10月10日
迈向通用工业智能:工业物联网增强的持续大模型综述
专知会员服务
42+阅读 · 2024年9月4日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
36+阅读 · 2024年8月9日
贝叶斯迁移学习: 迁移学习的概率图模型概述
专知会员服务
69+阅读 · 2021年10月17日
相关资讯
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
当深度强化学习遇见图神经网络
专知
225+阅读 · 2019年10月21日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
26+阅读 · 2017年7月9日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员