基于多模态大型语言模型(LLMs)的AI智能体有望彻底改变人机交互,并在医疗保健、教育、制造业和娱乐等各个领域提供更个性化的助手服务。在6G网络中部署LLM智能体使用户能够通过移动设备平等地访问以前昂贵的AI助手服务,从而减少互动延迟并更好地保护用户隐私。然而,移动设备的有限容量限制了部署和执行本地LLMs的有效性,因此在长期互动期间需要将复杂任务卸载到在边缘服务器上运行的全局LLMs。
在本文中,我们提出了一种面向6G网络中的LLM智能体的分裂学习系统,利用移动设备和边缘服务器之间的协作,将具有不同角色的多个LLMs分布在移动设备和边缘服务器上,以协同执行用户-智能体交互任务。在所提出的系统中,LLM智能体被分成感知、基准和对齐模块,促进了模块间的通信,以满足6G网络功能的扩展用户需求,包括集成感知和通信、数字孪生和面向任务的通信。此外,我们还引入了一种新颖的模型缓存算法,用于改善所提出系统内LLMs的模型利用率,从而降低协作移动和边缘LLM智能体的网络成本。
基于大型语言模型(LLMs)的AI智能体,也就是LLM智能体,旨在将AI模型整合到人们的日常服务中,作为个人助手,已成为推进人工通用智能(AGI)的关键要素[1],[2]。由大型语言模型(LLMs)驱动的AI智能体具有遵循用户指令、观察环境、做出决策和执行行动的能力,达到了人类水平。因此,LLM智能体可以主动通过理解和记忆跨应用的用户意图和行为为用户提供最终决策的建议。特别是,AI智能体通过处理来自传感器的各种模态的信息来观察周围环境,利用多模态LLMs的多功能性[3]。此外,LLM智能体可以通过将行动计划与推理、记忆和验证相结合来解决复杂任务。在LLM智能体和人类之间达成一致后,智能体可以获得类似于人类的智能,以向用户提供与人类价值观一致的文本、工具和具体行动的建议。
尽管在6G网络中部署LLM智能体在移动设备上使得云数据中心中目前被认为费用过高的服务变得平民化,但在实施LLM智能体用于复杂的多轮交互智能体服务[4],[5]方面仍存在一些问题。对于计算和内存密集型的代理AI模型,在容量有限的移动设备上运行,对于支持LLMs的长期执行是具有挑战性的。此外,LLMs的受限上下文窗口限制了LLM智能体进行长期和复杂交互的能力,例如感知、推理和编码,这些交互消耗了大量的可用上下文资源[6]。为了应对这些挑战,基于协作的端-边-云计算的分裂学习系统,旨在将LLM智能体划分为移动和边缘代理,成为一种可行的解决方案。在这个系统中,移动LLM智能体在移动设备上运行本地LLMs(0-10B参数,例如LLAMA-7B),可以处理实时的、直接的感知和对齐任务。与此同时,边缘LLM智能体在边缘服务器上托管全局LLMs(>10B参数,例如GPT-3),可以利用全局信息和历史记忆帮助移动LLM智能体执行复杂任务。
在6G网络中将LLM智能体划分为移动和边缘代理有几个优点。首先,可以通过不同位置、能力和上下文适应性的异构设备支持LLM智能体的灵活部署。具体来说,具有适当本地LLMs的移动LLM智能体可以有效地利用其计算能力,无论其位置和用户场景如何。其次,可以通过将本地LLMs的低级操作计划与全局LLMs的高级战略计划整合,跨多个移动设备实现长期协作。第三,移动LLM智能体在动态开放式环境中表现出更强的适应性。例如,移动LLM智能体可以使用本地LLMs理解指令,然后根据环境的即时反馈调整其行动,以在与物理环境互动时实现实时响应和相关性。在本文中,我们提出了一个LLM智能体的分裂学习系统,包括移动LLM智能体和边缘LLM智能体,用于在6G网络中运行可持续AI智能体,具有民主、灵活和长期的特点,适用于开放式环境。首先,我们介绍了AI智能体的基本概念,并介绍了通过协作的端-边-云计算构建LLM智能体的过程。其次,我们讨论了在6G网络中开发LLM智能体的三个主要问题,包括多模态感知、交互式基准和与人类的对齐。第三,我们研究了一个现实世界的应用,利用移动和边缘LLM智能体协同生成事故报告。在事故现场,车辆可以使用移动LLM智能体观察车祸周围的情景并生成其本地环境描述。通过将这些描述发送到边缘服务器,边缘LLM智能体可以使用全局观察来推导并提供更详细和精确的计划给车辆。最后,移动LLM智能体可以根据全局计划生成文本响应、功能调用请求和具体行动。此外,我们提出了一种称为思维年龄(AoT)的度量标准,用于评估思维的重要性,即LLMs生成的中间步骤,在边缘LLM智能体的推理和计划过程中。这个度量强调较早的思维具有较低的重要性,因此可以确保缓存模型的高性能。基于这个度量标准,我们提出了最小思维年龄(LAoT)模型缓存算法,该算法淘汰具有最不重要和相关思维的全局模型,从而减少了在为6G网络中的边缘LLM智能体提供基于延迟、资源消耗和性能损失的基础的接地成本。
总的来说,我们的主要贡献可以总结如下。 • 我们提出了一个用于6G网络中的LLM智能体的分裂学习系统,旨在通过移动和边缘LLM智能体的端-边-云计算协作提供民主的AI助手服务。 • 在集成6G网络和LLM智能体时,我们讨论了几个主要问题,包括多模态感知的集成感知和通信、基于数字孪生的对齐决策和面向任务的智能体对齐。 • 我们提出了系统的一个新的优化框架,即用于AI智能体的模型缓存,旨在最大化LLM智能体的上下文学习能力,同时减少为移动和边缘LLM智能体提供网络成本。
在6G网络中的LLM智能体的协同端-边-云计算
作为迈向实现AGI的重要步骤,AI智能体是能够主动感知用户指令、观察环境、做出决策并执行类似人类的行动的关键计算实体[2]。在6G网络中,AI智能体被开发来共同执行复杂的任务,从网络管理到充当人类的个人助手。根据基本工作机制的不同,有两大类AI智能体,即强化学习(RL)智能体和LLM智能体,如下所讨论。 A. AI智能体的分类 1. RL智能体:利用RL算法来观察状态、做出决策并在环境中采取行动,RL智能体通过试错学习,通过接收反馈作为奖励或惩罚来学习。它们旨在通过学习最优策略来随着时间的推移最大化其累积奖励。例如,在通信和网络领域,RL智能体可以在本地进行动态网络访问、传输功率控制、无线缓存和数据卸载等决策,以在不确定的网络环境下最大化网络性能。具体来说,RL智能体将通信和网络环境制定为由状态、动作、转移概率和奖励组成的马尔可夫决策过程(MDP)。然而,尽管RL智能体可以学习做出网络访问和管理决策[2],但它们无法在开放式环境中使用文本与人类和其他智能体进行交互,这限制了它们提供需要理解和响应人类指令的更多多样化服务的潜力。
LLM智能体:为了实现人类水平的智能,LLM智能体基于多才多艺且强大的LLMs,这些LLMs在少样本和零样本环境感知和理解方面表现出卓越的能力[1],[2]。除了RL智能体的决策能力外,LLM智能体可以通过文本、API工具和具体行动不断地与环境进行交互,并在互动过程中逐渐提高其性能。同时,大规模数据集的预训练引发了LLMs的新能力,使它们能够处理与数据管理、问题回答、路径规划和科学探究相关的各种下游任务。此外,配备了记忆、推理、规划和工具能力,LLM智能体不仅可以为网络环境做出决策,还可以利用语言理解并使用互联网和数据库等工具来处理复杂的控制任务。与RL智能体的泛化能力相比,LLM智能体的角色扮演能力使它们能够在处理不同任务时担任特定角色。例如,LLM智能体可以充当实验助手,自动化地根据人类制定的指令设计、规划和执行科学实验。然而,在现实环境中,文本指令通常不足以让LLM智能体全面感知整个环境。
为了增强LLMs的多感知能力,如视觉和音频理解,引入了多模态LLMs[3],如GPT-4V(ision),供智能体感知和处理来自多种模态的输入,包括触觉反馈、手势、惯性测量单元(IMUs)运动传感器数据和3D地图。对于视觉输入,多模态LLM智能体可以用于生成当前环境的描述,它们可以生成多模态描述,如文本、音频和图像,从而提高视觉障碍人士的可访问性并改善定位能力。具体而言,多模态LLM智能体可以利用预训练编码器将来自不同模态的信号转化为通用文本表示,从而实现跨模态推理[7]。 B. 移动边缘强化智能体的构建 如图1所示,在协同端-边-云计算中构建LLM智能体包括三个主要过程,即移动LLM智能体执行、边缘LLM智能体执行以及移动智能体与边缘智能体之间的智能体间通信,以更新信息和分配任务。
移动LLM智能体执行:首先,每个用户通过无线接入网络(RANs)从边缘服务器下载小型的本地LLMs(0-10B),例如LLAMA-7B,以进行个性化初始化。在初始化过程中,用户可以配置移动LLM智能体的个人资料,如年龄、性别和职业,智能体可以使用这些信息来定制与特定角色的互动和回应。此外,移动LLM智能体可以通过处理和分析历史互动来利用基于当前情况的情境初始化。LLM智能体感知环境有两种主要方法,即人类指令和感知。一方面,人类通过人与LLM智能体之间的互动对话来给出指令。另一方面,LLM智能体可以感知物理环境,这提供了来自与物体交互的多模态感觉输入,包括视觉、听觉和空间数据。 为了处理接收到的指令和多模态感知数据,移动LLM智能体可以利用预训练组件,如模态编码器、词嵌入层和投影层,来合并多感觉输入。每个模态编码器专用于一种模态,例如用于图像的CLIP,用于音频信号的CLAP,用于IMU运动传感器的IMU2CLIP,以及用于视频的Intervideo [8]。在移动设备中,多个编码器处理和组合多模态输入数据,然后将输出投影到本地LLM的文本令牌嵌入空间中。为了处理人类指令,词嵌入层是一个关键组件,它将单词或标记映射到连续的向量空间,捕捉它们之间的语义关系,并有助于理解用户特定的指令。在移动AI智能体中,由于移动设备容量有限,具有有限参数量的小型本地LLMs可以基于本地感知生成实时响应,但无法处理需要全面考虑和泛化的复杂任务。
边缘智能体执行:在边缘服务器中,具有巨大全局LLMs(>10B),例如GPT3,的边缘LLM智能体可以利用长期记忆、推理和规划模块提高响应的质量,并具备全局信息和环境理解。移动LLM智能体的历史互动可以通过内存嵌入层存储为长期记忆在向量数据库中。基于移动LLM智能体的长期记忆,边缘LLM智能体可以使用检索增强生成(RAG)来输出更具性能和一致性的响应[9]。此外,边缘LLM智能体可以利用思维链(CoT)推理来提高复杂任务的性能[10]。在处理复杂任务时,使用CoT的边缘LLM智能体首先采用各种推理路径来推断潜在答案,考虑到每个复杂问题有多种思考方式。通过这种方式,边缘LLM智能体可以通过知识泛化和不同思考方式来适应不熟悉的情境。
C. **本地和边缘智能体之间的智能体间通信 **
当移动LLM智能体无法完成复杂任务时,它们可以将中间结果,包括本地感知和用户意图,传输到配备了巨大全局LLMs和全局信息以进行远程执行的边缘LLM智能体。移动LLM智能体可以通过RAN上的智能体间通信传输中间结果,例如文本或其他嵌入。由于带宽有限和无线信道不确定,移动LLM智能体需要优化传输内容的大小,即本地LLM的中间推理结果,并配置通信参数以成功进行卸载,例如传输功率和选择的信道。基于边缘LLM智能体生成的响应和决策结果,移动LLM智能体将全局一般计划调整为本地具体计划,以与用户和环境互动。在使用本地小型LLMs理解本地具体计划后,移动LLM智能体可以使用其执行模块在本地生成响应,使用API工具,并执行具体行动。