在设备上的大型语言模型(LLMs)指的是在边缘设备上运行LLMs,由于其卓越的隐私保护、降低的延迟和节省带宽而引起了极大的兴趣。然而,与强大的云中心相比,边缘设备的有限容量本质上限制了在设备上运行LLMs的能力。为弥补基于云和设备上的AI之间的差距,移动边缘智能(MEI)通过在移动网络边缘提供AI能力,相对于云计算,改善了隐私和延迟,从而提供了一种可行的解决方案。MEI位于设备上AI和基于云的AI之间,具有无线通信和比终端设备更强大的计算资源。本文提供了一个关于利用MEI进行LLMs的当代调查。我们首先介绍LLMs的基础知识,从LLMs和MEI开始,接着是资源高效的LLM技术。然后,我们通过几个关键应用程序来展示在网络边缘部署LLMs的必要性,并提供MEI用于LLMs(MEI4LLM)的架构概述。随后,我们深入探讨了MEI4LLM的各个方面,广泛覆盖了边缘LLM缓存和交付、边缘LLM训练和边缘LLM推理。最后,我们确定了未来的研究机会。我们旨在激励该领域的研究人员利用移动边缘计算来促进LLMs在用户近端的部署,从而释放LLMs在各种隐私和延迟敏感应用中的潜力。
关键词:大型语言模型,基础模型,移动边缘计算,边缘智能,6G,分裂学习。
大型语言模型(LLMs)的最近出现标志着人工智能(AI)技术在实现通用智能方面的一个里程碑。LLMs在各个领域表现出色,不仅能生成文本响应,还能执行多模态内容分析、摘要和泛化等任务。例如,GPT-4多模态模型接受图像和文本输入,并在各种专业和学术基准上展示出人类水平的表现。除了这些有时被称为基础模型的通用模型外,LLMs还可以微调以适应特定行业和应用场景。例如,Google设计的医疗LLM Med-PaLM M [1],基于涵盖文本、图像、基因组学等丰富数据模态提供高质量的答案。Google DeepMind还开发了机器人转换器2(RT-2)[2],这是一种用于控制机器人的视觉-语言-动作AI模型。广泛的用例展示了LLMs对日常生活的深远影响。
由于计算、存储和内存成本相关,现有的LLMs大多局限于云数据中心提供服务。遗憾的是,基于云的LLM服务带来了固有的缺陷,包括数据隐私泄露、高带宽成本和长服务延迟。用户必须上传他们的数据以利用云中心的资源来访问LLM服务,这通常会导致显著的通信延迟。此外,上传私人数据对用户隐私构成严重风险,尤其是在隐私敏感的应用(如智能健康)中。鉴于这些问题,设备上LLM部署引起了越来越多的兴趣,促使主要行业参与者之间的竞争加剧。例如,Google在Pixel 8 Pro智能手机上推出了分别具有18亿和32.5亿参数的Gemini Nano [3]。高通计划在Snapdragon旗舰智能手机和个人电脑上推出Llama 2支持[4]。设备上LLM部署使得敏感个人数据(如端到端加密消息和健康数据)得以本地处理。这也为机器人规划和自动驾驶等延迟敏感应用提供了低响应时间。这些显著优势推动了LLMs从云中心向移动设备的持续转移。
尽管设备上LLM正在成为一个快速增长的领域,但设备上LLMs的广泛部署面临严峻限制。具体而言,边缘设备上的计算、内存和存储资源的稀缺大大限制了设备上LLM的规模。一方面,现有的工业努力集中于子10B(100亿参数)LLMs,因为设备上部署需要大量资源。例如,依赖于4位模型并具有18亿和32.5亿参数的Google Gemini Nano,只能支持相对“基础”的功能,如文本摘要、智能回复建议和语法检查[3]。然而,随着所需功能变得更加复杂,在设备上部署更大规模的LLMs变得必要,这会显著增加设备上LLM推理的开销。另一方面,设备上微调为个性化和上下文感知AI铺平了道路,作为优越AI性能的基本构建块。然而,由于训练成本通常比AI推理更为密集,现有的设备上LLM产品不包含设备上训练(微调)功能。 为解决上述困境,移动边缘计算提供了一种有前景的解决方案。6G移动网络旨在通过利用网络赋能的计算能力(例如基站),为各种移动设备提供低延迟AI推理和训练服务,这形成了一种被称为“移动边缘智能(MEI)”的范式。MEI位于设备上AI和基于云的AI之间,具有无线通信和适度规模的计算资源。换句话说,它比边缘设备更强大,但不如云中心强大。由于边缘设备和边缘服务器之间的距离较短,可以支持大规模LLMs且服务延迟较低。同时,6G边缘可以通过利用边缘服务器上更强大的内存、能量和计算能力,在不断演变的环境中持续微调LLMs。因此,6G移动边缘预计将在推动LLMs到边缘设备方面起到至关重要的作用。
LLMs的部署比传统深度神经网络(DNNs)如卷积神经网络(CNNs)资源需求更高,这是将LLMs引入网络边缘的主要障碍。本调查论文旨在提供关于这一汇聚趋势(即MEI和LLMs)的当代调查,主要从资源高效部署的角度,包括网络边缘的存储效率、计算效率和通信效率。本论文不同于关于高效LLM训练/微调和推理的先前调查论文,如[5],[7],[9],[11]-[15]。这些论文大多关注于提高计算效率,而忽略了通信对LLM训练、推理和缓存交付的影响,这是移动边缘网络中的一个显著瓶颈。本论文还不同于现有的关于LLM边缘部署的调查/文章,如[6],[8],[10],[16]。这些论文探讨了云边协同的LLM赋能的AI服务提供,但没有讨论资源高效部署,如参数高效微调、分裂推理/学习和高效LLM缓存和交付及其与无线边缘网络的相互作用。最后,本调查论文与关于“用于网络的LLMs”[17],[18]的论文有根本不同,这些论文的设计目标是利用LLMs优化边缘网络,而不是利用边缘计算支持LLMs。与一些相关调查/论文的比较见表I。本论文的主要贡献总结如下:
我们展示了驱动LLMs在网络边缘部署的应用场景。虽然LLMs的用例在其他地方已被广泛讨论,但我们将强调基于服务要求在移动边缘提供这些应用的必要性或好处。
我们提供了第一份关于6G边缘网络如何促进LLM缓存和交付、训练和推理的综合调查,包括边缘LLM缓存和交付、边缘LLM训练和边缘LLM推理。我们将特别关注LLMs的资源高效部署,以提高LLMs在网络边缘的存储、通信和计算效率。
我们确定了LLMs与移动边缘智能集成的几个关键研究方向,包括绿色边缘AI和LLMs的安全边缘AI。
如图1所示,调查的组织结构如下。第二节概述LLMs和MEI,第三节介绍最新的资源高效LLM技术。第四节展示了四个关键应用,证明在网络边缘部署LLMs的必要性。在第五节中,我们提出了支持LLMs在网络边缘部署的MEI4LLM框架。该框架包括AI原生架构、参数共享LLM缓存和交付、分布式LLM训练/微调和分布式LLM推理。第六、七、八节分别探讨了考虑存储效率、计算效率和通信效率的高效边缘LLM缓存和交付、边缘LLM训练和边缘LLM推理技术。最后,我们在第九节概述未来研究机会,并在第十节给出结论。
Transformers的工作原理如下。与递归神经网络(RNNs)中用于短期上下文和顺序处理的递归连接不同,Transformers采用自注意力机制来全面捕捉序列元素之间复杂的依赖关系,从而学习长程关系。Transformer架构设计的核心在于编码器-解码器架构,由具有多头自注意力机制的堆叠层组成。这些机制优先处理输入序列中的不同元素,增强模型有效生成输出令牌的能力。此外,每一层都包含前馈网络(FFNs)和层归一化。编码器将输入序列转换为上下文丰富的表示,而解码器利用这些表示生成输出序列,同时考虑输入和先前生成的令牌。
自注意力是Transformer的核心。Transformers内嵌的自注意力机制克服了RNNs固有的短期上下文限制,全面把握长程依赖关系,增强其捕捉序列中复杂关系的能力。虽然注意力模块已广泛用于前馈和递归网络[28],[29],但Transformers完全依赖注意力机制,并采用独特的实现方式(即多头注意力(MHA))进行并行化优化,促进了高复杂度模型和大规模数据集的可扩展性。其他替代方法,如硬注意力[30],本质上是随机的,这需要蒙特卡罗采样来进行注意力位置采样。此外,与卷积或递归网络[31]-[33]相比,Transformer对问题结构的先验知识要求最少。这一特性使其适合通过在大规模未标注数据集上的预训练任务进行模型预训练[19],[23],从而编码出高度表达性和可泛化的表示。这些表示有效捕捉给定数据集中的实体关系,为后续下游任务的监督微调奠定基础。2) LLMs:Transformer的可扩展性推动了LLMs的兴起。各种LLMs基于Transformer架构构建和演变。目前,AI行业的主要参与者致力于打造他们的LLMs并将其应用于各个领域。例如,OpenAI开发了备受推崇的聊天LLM GPT-3 [34],在各种NLP任务中表现出色,如文本生成和机器翻译。Google推出了医疗LLM Med-PaLM [35],能够提供专家级的医疗指导和诊断。Facebook提出了创新的图像分类LLM DEiT [36],结合自监督学习与Transformer架构,在有限标注数据下实现了种族级别的图像分类性能。这些LLMs在互联网上的广泛和多样的数据集上进行训练[37]。
LLM架构可分为三类:仅编码器LLMs、编码器-解码器LLMs和仅解码器LLMs。仅编码器LLMs,如ALBERT [38],仅由编码器组件组成,通常基于高级架构如Transformer [19]。编码器负责处理输入序列,为每个令牌生成上下文化表示。尽管缺少用于生成输出序列的解码器,仅编码器LLMs在各种NLP任务中仍表现出色,如文本分类、句子相似度计算和语言理解,因其高效的特征提取能力和可适应的表示。编码器-解码器LLMs,以T5模型为代表[39],在NLP领域代表了一项重要进展,在其架构中集成了编码器和解码器组件。编码器处理输入序列以生成上下文化表示,而解码器利用这些表示生成输出序列,通常以序列到序列的方式。编码器-解码器LLMs广泛应用于机器翻译、文本摘要和问答等任务,因其捕捉复杂语言结构和上下文依赖关系的能力。仅解码器LLMs,以著名的GPT系列[34],[40]为代表,构成LLMs的一个重要分支。仅解码器LLMs采用自回归解码,这在仅解码器和编码器-解码器LLMs中广泛使用,根据序列中的先前令牌生成输出序列。这种架构设计使其特别适合于生成文本的任务,如语言生成、文本补全和对话响应生成。3) 多模态LLMs:由于传统LLMs [41]-[43]主要应用于文本数据,对LLMs的单模态模型训练限制了它们理解超越文本的其他数据类型的能力。例如,传统的LLMs如GPT-3和BERT [23]仅依赖于文本输入。然而,在许多现实场景中,语言理解不仅限于文本上下文,还包括视觉线索、听觉信号和来自多种传感器的上下文感知信息。 为解决上述问题,学术界和工业界广泛研究了多模态LLMs的范式,如图2所示,将文本、图像和音频等各种模态融合到一个统一的框架中,释放处理多种数据类型的潜力。例如,GPT-4 [40]擅长同时处理图像和文本输入,在各种基准测试中展示了与人类相当的表现。在图像描述任务中,GPT-4利用图像和相关文本数据生成更精确和生动的描述,而在语音识别任务中,它将语音信号与文本信息结合以改进语音理解和转换。多模态感知在追求通用AI中起着关键作用,因为处理复杂的现实数据需要能够跨模态信息融合和交互学习的AI模型,从而提升多个感知领域的训练性能。
多模态LLMs继承了LLMs强大的学习能力,通过集成各种模态的基础模型来赋能多样而复杂的多模态任务。LLMs提供了强大的语言生成、零样本迁移能力和上下文学习,而其他模态的基础模型提供了其他数据类型的信息表示[45],[46]。由于各种模态的基础模型分别进行预训练,构建多模态LLMs的主要挑战在于如何连接这些模型以实现高性能的协同训练/推理。该领域的主要研究集中在通过多模态预训练[47],[48]和多模态指令微调[49],[50]精炼模态对齐。多模态预训练通过训练模型以多模态数据集,如XText [51],学习跨模态的通用表示。在训练过程中,模型通过优化预定义目标来关联不同模态的信息,从而实现模态间的对齐。这种对齐增强了模型对跨模态任务的理解能力,带来更好的性能。多模态指令微调是一种基于预训练模型的微调方法,旨在提高模型在特定任务上的表现。它将模型与一个或多个与模态相关的任务结合,然后使用模态标注数据微调模型以提高其与模态特定任务的对齐。这使得模型能够通过遵循新的指令来赋能未见过的任务,从而提高模型的零样本性能和泛化能力。4) 生成性/交互性AI:LLMs的快速发展对各种应用,尤其是生成性AI(GAI)和交互性AI(IAI)产生了深远影响。GAI专注于创建包括图像、文本、音乐和视频在内的广泛内容[52],统称为AI生成内容(AIGC)。通过利用在高质量数据集上训练的多模态LLMs,GAI能够根据输入文本有效地创建优质AIGC[53]。另一方面,IAI可以视为GAI的下一个阶段。IAI在聊天机器人和虚拟助手等应用中响应用户查询,同时通过用户交互使AI代理能够适应,从而不断提高准确性[54],[55]。通过利用强大的LLMs和GAI的内容生成优势,IAI使AI代理能够模拟人类交互,并与用户生成有意义和动态的对话[56],[57]。在这方面,LLMs也被视为IAI的基石,因为它们促进了复杂的交互对话。 为使AI代理能够生成更准确和最新的响应,可以将检索增强生成(RAG)集成到LLMs中以赋能IAI和GAI[58]。具体而言,LLMs在生成响应时使用输入序列从外部知识源检索相关数据,从而提高内容生成性能[59],[60]。例如,Google将RAG与Gemini结合,以增强LLMs在特定任务上生成更准确和上下文相关响应的能力[61]。将RAG集成到LLMs中的主要优势有两个。首先,通过连接到富含最新信息的知识源,RAG将LLMs建立在最真实、最准确和最新的内容上,减少了生成输出中“幻觉”的可能性,并消除了频繁适应LLMs的需要。其次,RAG使用户能够验证模型响应的来源,提高了可信度[62]。5) LLMs的工业进展:LLMs在工业中取得了显著进展,得益于深度学习算法的成熟[63]-[65]、计算能力的增加和大规模数据集的可用性。主要技术公司,包括OpenAI、Google、Microsoft和Meta,已在LLMs研究和开发方面进行了大量投资,导致了GPT系列[34],[40]和BERT [23]等著名模型的创建。这些模型在语言翻译、文本生成、问答和情感分析等一系列NLP任务中表现出色。此外,多模态LLMs已超越其最初的NLP领域,在医疗保健、自动驾驶和智慧城市等多个行业中表现出色。例如,在医疗保健领域,Med-PaLM [35]被设计用于医学图像分析、临床文档处理和患者诊断,帮助医疗专业人员进行准确的诊断和治疗决策。在自动驾驶领域,DriveMLM [66]弥合了语言决策和车辆控制命令之间的差距,使得在现实模拟器中实现闭环自动驾驶。可以看出,LLMs的普及为多个行业提供了巨大的价值。
最近在设备上LLMs的进展引起了业界的关注。例如,Meta提出了一种名为MobileLLM的设备上LLM,利用深而薄的架构、嵌入共享和分组查询注意力机制[67]。Google引入了一种新的指令微调方法,用于构建以移动为中心的文本重写LLM[68]。然而,与大型模型的强大LLMs相比,设备上LLMs往往表现不佳。例如,Google的Gemini Nano-1设计用于设备上部署,仅包含1.8亿参数,采用4位格式,从较大的Gemini模型中提取[69]。由于其紧凑的尺寸,当这种小型LLM的能力不足以满足边缘设备的需求时,这些设备可能仍需要上传数据以访问大规模LLMs,即在边缘服务器上。
移动边缘智能(MEI)作为一个将AI与移动边缘计算相结合的有前景的范式,正在改变移动服务和应用的格局[70]-[73]。MEI的发展源于各种技术进步的融合,包括物联网(IoT)设备的普及、移动网络的部署和AI算法的成熟[70],[74]-[76]。这些发展使MEI能够克服传统云中心架构的限制,通过在网络边缘提供本地化的AI训练/推理和数据处理能力。 通过集成AI和通信,MEI框架使移动网络能够提供超越通信的服务,为万物智能奠定了坚实基础。沿着这条线,“集成AI和通信”的使用案例已包含在6G的IMT框架建议中[77]。在标准化方面,电信标准化组织3GPP和ITU分别在其白皮书中描述了边缘智能的前景。ITU-3172 [78]阐明了基于ML应用程序的延迟敏感性要求,将机器学习(ML)功能托管在网络边缘的必要性。在3GPP第18版5G标准化中,MEI旨在支持分布式学习算法、分裂AI/ML和高效的AI模型分发[79]。详细信息如下。首先,边缘学习(如联邦学习)将在边缘网络中得到全面支持,这使得边缘服务器能够聚合来自多个分布式边缘设备的模型更新和知识,从而提高AI/ML模型的性能。其次,通过5G边缘网络进行分裂AI/ML可以促进在设备上部署计算密集型、能源密集型、隐私敏感和延迟敏感的AI应用程序。例如,在边缘分裂推理中,一个AI模型被划分为子模型,计算密集型和能源密集型的子模型被卸载到5G边缘服务器(例如基站)。边缘服务器可以使用边缘侧子模型和来自边缘设备的上传中间数据执行推理。最后,高效的AI模型下载确保了当边缘设备需要适应新的AI任务和环境时,AI模型可以低延迟地传送到边缘设备。例如,当驾驶环境发生变化时,自动驾驶车辆需要在1秒内从5G边缘服务器下载新的AI模型。为了将基于网络的AI算法集成到5G网络中,MEI框架需要满足边缘服务器和边缘设备之间高速和稳定数据链路的需求。这些链路可以为持续上传中间数据/模型更新到边缘服务器提供高且恒定的上行数据速率,并在边缘设备需要及时下载AI模型时提供高下行数据速率。此外,MEI的核心在于利用数据源与边缘计算设备(如智能手机、笔记本电脑和可穿戴设备)之间的接近性,在数据源附近实现智能决策。与传统的集中式架构相比,这种分布式计算范式具有许多优势,包括减少延迟、改善带宽利用、保护数据隐私和增强对网络故障的抵抗力。 在应用方面,MEI在智能医疗、自动驾驶和智慧城市等各个领域具有重要意义[80]。例如,在医疗保健领域,MEI支持实时监测患者健康数据,并在紧急情况下提供及时干预。同样,在智慧城市中,MEI有助于智能交通管理、环境监测和能源优化,从而促进可持续发展并提高生活质量。边缘智能还在工业中取得了显著进展,特别是随着边缘计算技术的普及和5G网络的出现。微软、谷歌、亚马逊和NVIDIA等领先企业开发了边缘AI平台,以支持实时AI服务。对于边缘AI赋能的物联网应用,微软的“Azure IoT Edge”、谷歌的“Cloud IoT”、亚马逊的“Web Services IoT”和NVIDIA的“EGX”提供了边缘AI平台,以在广泛的应用中提供实时AI服务,从实时视频分析[81]、智能家居[82]到工业物联网[83]。
显然,MEI4LLM只是MEI的一个特殊案例。然而,在边缘训练和部署大量LLMs的需求可以成为MEI发展的关键动力。一方面,下一代MEI的原则,包括推动AI和通信的全面集成,与边缘LLMs的需求高度一致。另一方面,LLMs的极端资源需求推动了MEI的边界。具体而言,MEI4LLM必须具备以下特征:1)原生支持模型分割和跨互联边缘节点的并行训练/推理,以促进超大规模模型的部署;2)集成设计的无线网络和资源高效的LLM训练/推理技术,如参数高效微调和令牌(表示)缩减(将在第七节和第八节中介绍),以使LLMs的部署成本效益高。本质上,与传统MEI相比,MEI4LLM主要关注资源管理和高效AI技术的集成设计,以在有限的通信-计算资源下支持LLMs,这将是本调查论文的重点,也是该领域的研究主题。
毋庸置疑,由于LLMs的巨大规模和计算复杂性,在边缘设备/服务器上部署LLMs进行训练/推理面临若干关键挑战: * 过高的计算开销:据报道,GPT-4每次前向传递生成一个令牌大约需要560万亿浮点运算[84]。然而,先进的A100 GPU每秒提供的计算能力仅为19.5万亿浮点运算[85]。这表明,使用单个A100 GPU进行一次前向传递生成一个令牌大约需要28秒。此外,反向传播通常比前向传递需要更多的计算资源[86],这意味着在设备上进行训练将更加具有挑战性。 * 巨大的存储/内存需求:一方面,在边缘设备上缓存LLMs会消耗大量的存储资源。专门设计用于设备上部署的LLMs甚至拥有数十亿个参数,例如,Google的设备上Gemini Nano-2拥有32.5亿个参数。另一方面,在训练过程中使用常用的Adam优化器通常需要12倍于推理所需的内存资源[87],这对于内存有限的移动设备来说是不可接受的。这些因素表明,在边缘设备上部署LLMs进行训练和推理对边缘设备的存储和内存资源提出了严格要求。 * 高能耗:边缘设备中有限的电池容量阻碍了LLMs在边缘设备上的部署。例如,使用llama.cpp(最轻量级的设备上LLM引擎之一)在小米11智能手机上运行一个量化为INT4且具有130亿参数的LLM,会导致约56焦耳/令牌的能耗[88]。这意味着如果在智能手机上部署LLM,电池容量为3000mAh且输出电压为3.7V的智能手机只能生成大约700个令牌。如果在边缘设备上进行LLM训练/微调,处理的数据量将更少。
为减轻上述挑战,本节将回顾资源高效LLM部署的相关技术,这些技术总结如图3所示。相关工作的比较见表II。值得注意的是,本节讨论的方法可以降低在边缘设备、边缘服务器或设备-服务器协作中部署LLMs的复杂性。因此,这些关键技术构成了MEI4LLM及其后续各节的基础。
将LLMs推向网络边缘是一种持续发展的趋势,结合第四节中的关键应用和第三节中介绍的资源高效技术,通过在网络边缘部署LLMs,边缘设备可以与边缘服务器协作进行学习和推理,从而大大缓解边缘设备资源的稀缺性。根据6G时代的“NET4AI”(网络为AI服务)愿景[159],本节概述了支持LLMs部署的MEI框架,称为MEI4LLM,如图6所示。MEI4LLM包括以下基本组件。
下一代边缘网络将以端到端(E2E)的方式支持AI服务。6G的目标应该是在最小化通信、计算、存储和能量需求的情况下,支持包括LLMs在内的AI,以实现卓越的性能。为此,6G常被设想为“任务导向”的架构。设计目标可以是通过在多种资源约束下实现最佳的分布式计算、特征提取和资源分配方案来最小化LLMs输出令牌的交叉熵,而不是最大化吞吐量或最小化延迟。 要实现这一目标,网络虚拟化对于提高资源利用率、灵活性和可管理性至关重要。遵循软件定义网络的设计原则,MEI4LLM特设一个中央控制器,协调网络范围内的计算资源和数据传输,实现控制和数据平面的解耦。通过收集全球网络知识,如LLMs的准确性、各种量化级别、用户对LLM服务的需求、信道条件、用户电池状态和计算资源可用性,控制器在分布式边缘计算系统中划分和协调模型训练/推理和交付,跨越边缘路由器和服务器交换中间粉碎数据(即中间激活和反向传播梯度)、模型参数或用户数据。 进一步,边缘网络将演变成“神经边缘”[159],在此处,神经网络层在边缘节点之间分布进行协同计算。类似于云数据中心中的许多GPU支持大规模LLMs,MEI4LLM必须具有灵活和模型分割的特点,以便在分布式边缘设备和服务器之间进行训练和推理。空中接口和网络设计应本地支持联邦学习、分裂学习和分裂推理等AI模型,包括LLMs。由于模型训练和推理对数据包错误具有鲁棒性,任务导向的无线传输,例如在切割层的粉碎数据,可以通过适当的错误控制进行,以实现最佳的效率-可靠性权衡。大规模模型的最佳模型分割、放置和数据路由应在边缘网络上协同支持。 最后,可以实施信息中心网络,以确保在边缘网络上无缝传输模型、特征和数据,从而实现LLMs的高效交付。在这方面,MEI4LLM应支持LLM参数块命名和基于名称的传输协议。通过为每个LLM参数块分配名称,MEI4LLM架构中的中央控制器可以将参数请求转发到其缓存的位置,从而减少跨网络和到最终用户的大规模模型交付的延迟和带宽消耗。
考虑到边缘设备的有限存储容量和频繁的模型微调,LLMs应在边缘网络内从其位置快速交付到需要的地方。此外,考虑到RAG,外部知识源也应缓存于网络边缘,以确保在需要LLM应用时及时获取数据/知识。模型/数据交付可以通过有线回程或无线接入网络进行。LLMs的缓存和交付必须利用参数块可以在各种下游LLMs之间共享[112],[160],甚至在同一LLM内重用[38]的事实。这一独特特性使得通过减少重复LLM参数块的缓存和交付成本,实现高效的边缘LLM缓存和低延迟LLM交付,正如我们将在第六节中展示的那样。为了实现快速模型交付,MEI4LLM可以构建一个查找表,为LLM参数块分配名称以便于内容搜索和管理,遵循信息中心网络的原则。通过这样做,MEI4LLM范式将LLMs放置在适当的位置,从附近的边缘服务器检索所需的LLMs,并实现LLM参数块到移动用户的路由/多播。
可以预见,6G MEI系统可以高效地微调LLMs以适应本地环境。边缘LLM微调可以在推理精度下降或当地环境变化后一段时间触发。例如,LLM赋能的虚拟助手应定期进行微调,以更好地适应新闻媒体中的新趋势、当地顶级餐馆和热门景点,从而改善决策和与用户的互动。LLM赋能的移动健康应用应个性化,以提供更好的预测和健康或健身建议。 在下一代移动网络中,边缘LLM训练必须回答两个问题:1)如何保护用户隐私和数据所有权,2)如何通过边缘节点的协作支持大规模模型训练。为了增强用户数据隐私,联邦学习(FL)和分裂学习(SL)是两种在网络边缘实现的有前途的分布式学习框架。具体而言,FL允许边缘设备在本地训练模型,仅与边缘服务器共享模型参数以进行聚合,从而在不共享个人数据的情况下利用集体智慧。或者,可以实施SL及其变体分裂联邦学习(SFL),以启用设备-服务器协同训练而不共享本地原始数据,这特别适用于边缘设备的大规模LLM微调[161],因为模型分割允许在不同的边缘节点之间进行工作负载平衡。为了有效支持密集的训练,可以将第III节中详述的各种资源高效训练技术与FL或SL结合。这些讨论将在第七节中提供。
为了适应资源密集型的LLMs,边缘服务器和边缘设备必须根据通信-计算工作负载和隐私需求协调一致地进行分布式推理。边缘推理有不同的方式。服务器上的推理需要用户上传原始数据到服务器。这种方法消除了边缘设备上的计算负担,但可能会侵犯用户的隐私需求。例如,多模态LLMs可能会在家庭环境中收集敏感的音频和视频数据,用户通常不愿分享。相反,设备上的推理保护隐私并消除了通信成本,但对边缘设备施加了密集的计算工作负荷。分裂推理是一种关键的AI推理框架,在3GPP 5G技术规范中[79]被广泛应用,边缘设备和服务器持有部分AI模型。分裂推理涉及从边缘设备上传特征到边缘服务器进行共同推理。 为了促进LLM推理,MEI4LLM可以根据通信-计算资源状态和隐私需求,通过适当选择这些方案来定制消费者服务,如第八节详细说明的那样。