大型语言模型(LLMs)以其卓越的能力彻底改变了自然语言处理。然而,由于计算资源有限、内存约束以及边缘硬件异构性,将LLMs部署在资源受限的边缘设备上面临重大挑战。本文综述了边缘LLMs在其生命周期中的最新发展,重点探讨了从部署前技术到运行时优化的资源高效设计。此外,还探讨了LLMs在个人、企业和工业场景中的设备端应用。通过总结最新进展并指出未来的研究方向,本综述旨在为LLMs在边缘设备上的部署提供全面的理解,弥合其巨大潜力与边缘计算限制之间的差距。
基于Transformer的大型语言模型(LLMs)近年来取得了重大进展,彻底改变了自然语言处理(NLP)领域。随着这一快速进步,多个开源LLM陆续涌现,包括Meta的Llama系列[5, 185, 186]、Mistral AI的Mistral系列[80, 81]以及Google的Gemma[180, 188]。LLM的成功归因于其在自然语言理解和生成方面的卓越性能[44, 45, 230],这使得其在文本摘要[91, 94, 121]、问答任务[119, 143, 154]和代码生成[103, 176, 205]等领域广泛应用。这些应用在学术和工业领域产生了深远影响,为ChatGPT[145]、Copilot[133]和Claude[12]等AI语言工具铺平了道路。LLM的兴起与成就代表了人工智能[107, 195, 250]、信息检索[35, 108, 159]和人机交互[93, 197, 204]领域的重大飞跃。LLM的快速发展引发了在资源受限的边缘设备上部署这些强大AI模型的需求,从智能手机[25, 156]和可穿戴设备[49]到智能家居助理[209]和工业物联网(IoT)传感器[207]。这种方法称为边缘LLM[41],需要将LLM直接部署在网络边缘的设备上,而不是依赖于集中式云服务器。这种方法的好处是多方面的。首先,边缘计算使LLM可以本地执行,从而实现更快的响应和低延迟的分析[25, 148]。这种本地执行还允许LLM在没有互联网连接的情况下运行,使其非常适合在连接有限的区域中使用,例如关键基础设施和需要即时决策的应用,如自动驾驶汽车和机器人[170, 175]。其次,将LLM部署在边缘设备上可以增强隐私和安全性,因为敏感的用户数据在设备内处理,避免了传输到云端所带来的隐私泄露风险[51, 234]。最后,边缘LLM通过设备端学习和自适应功能实现个性化用户体验。这种本地化的定制允许模型根据用户的偏好、使用模式和特定场景调整其响应和功能,而无需牺牲隐私或频繁的云同步[31, 251]。尽管有诸多优势,但在资源受限的边缘设备上部署LLM仍面临多项重大挑战。首先,计算和内存的限制对LLM的训练和推理施加了巨大的限制。LLM计算密集且内存需求高,常常超出边缘硬件的能力范围。LLM中的自注意力机制需要大量的张量乘法运算,而这些运算在边缘设备上执行速度较慢[169]。此外,这些模型的庞大内存占用通常超过了边缘设备的可用RAM,使得无法加载整个模型[251]。其次,边缘计算设备的异构性为LLM的设计、部署和跨设备优化带来了巨大挑战。边缘设备从配备ARM处理器的智能手机到带有专用低功耗芯片的物联网设备不一而足,每种设备的处理能力各异。这种多样性还体现在内存系统上,不同设备的缓存级别、RAM容量和存储类型各不相同,直接影响LLM性能,因而需要针对设备的内存管理策略[97]。软件环境同样多样化,不同的操作系统需要定制化的LLM框架[101]。跨设备优化必须解决如智能手机和笔记本电脑等设备之间的计算差异[24, 73],这需要资源感知的调度算法来动态分配计算资源,基于每台设备的处理能力和能耗限制[63]。此外,硬件和软件的协同设计必须使算法与各种硬件配置相匹配,要求对每个平台的特性有深入了解,以实现有效的性能分析和硬件感知的推理实现[191]。最后,开发实际的边缘应用程序,以弥合集中式LLM处理和分布式边缘使用场景之间的差距也是一项重大挑战。在个人和企业环境中,像AutoDroid[209]和GPTDroid[123]这样的框架展示了将LLM集成到移动应用中的复杂性,同时保持任务自动化和图形用户界面(GUI)测试等任务的响应性和准确性。主要困难在于如何在不影响用户体验的情况下,在边缘设备上高效部署复杂的LLM功能。此外,工业领域在将LLM与其他关键应用程序一起调度到边缘节点时也面临挑战。在机器人和自动驾驶等工业领域[56, 175],需要复杂的调度算法来平衡LLM的计算需求与实时进程的要求。这需要动态的资源分配和任务优先级,以确保基于LLM的分析能够补充而非阻碍关键功能。因此,开发者必须将LLM有效适应资源受限的设备,并适应各领域中动态的用户行为。解决这些挑战需要在整个应用部署生命周期中采用多方面的设计,如图1所示。首先,为了在资源受限的边缘设备上部署LLM,离线的预部署技术聚焦于开发更小、更高效的模型,这些模型在减少计算和内存需求的同时保留其功能。接下来,压缩后的模型部署到边缘设备上,在那里应用在线的运行时优化,以适应异构边缘设备上的模型。最后,优化后的模型在各个不同领域的设备端应用中发挥作用,展示其实际价值。这个端到端的过程无缝集成了离线压缩、在线优化和多样化的应用开发,有效应对了LLM在边缘设备上部署的关键挑战,并展示了这些优化模型的现实应用潜力。为此,本综述旨在全面探索在边缘和移动设备上启用大型语言模型(LLMs)所涉及的关键领域。如图2所示,我们深入探讨了三个关键方面:离线预部署模型设计技术、在线模型执行优化以及基于边缘LLM的应用。我们旨在识别当前最先进的技术,找出研究空白,并提出未来在资源受限设备上部署LLM的研究方向,最终为创新的智能应用和服务铺平道路。具体来说:
预部署技术。预部署技术包括各种模型压缩方法,旨在减少模型大小,同时降低边缘部署对内存和存储的需求。关键方法包括量化、剪枝、知识蒸馏、低秩近似等。虽然这些方法已在传统深度学习模型中取得了良好效果,但它们在LLM中的应用面临着独特的挑战。LLM的规模、基于Transformer的架构以及在多种语言任务中保持性能的需求使得压缩过程更加复杂[2, 219]。这些挑战推动了针对LLM开发专门压缩方法的研究。量化通过使用更少的比特来表示权重或激活值来减小LLM的大小[115, 164]。剪枝通过结构化或非结构化地移除不必要的模型组件以简化模型[96, 215]。知识蒸馏将大模型中的知识传递给较小的模型,保留关键特性[82, 113]。此外,低秩近似通过利用矩阵中的固有冗余来压缩大矩阵[71, 112]。其他方法,如复杂的预训练技术、数据策划策略以及架构优化,也有助于实现显著的压缩效果[136, 138, 180]。
运行时优化。运行时优化指的是直接在边缘和移动设备上优化LLM的推理或微调过程。主要的优化指标包括系统响应速度、资源利用效率和计算负载。优化旨在通过各种方法增强LLM在边缘设备上的性能,例如跨设备优化、资源感知调度、硬件-软件协同设计、框架级优化以及硬件级优化。跨设备优化通过边缘设备和云服务器之间的协作策略来提高整体系统响应速度并减少本地计算负载[24, 232]。资源感知调度则通过动态分配计算资源,提升效率并适应不同的工作负载[63, 148]。硬件-软件协同设计将软件算法与硬件能力对齐,使得硬件性能的分析更高效,并实现硬件感知的推理算法,从而提升整体系统效率[51, 191]。框架级优化使用专门的引擎来进行高效的内存管理和张量运算,减少内存占用并优化资源利用率[142, 251]。硬件级优化通过利用低功耗的NPUs和AI加速器,显著提高能效并加速特定AI操作[87, 124]。
设备端应用。设备端应用是指直接在边缘设备上实施和使用LLM的实际应用。这些应用涵盖了多个领域,包括个人、企业和工业场景。在个人计算中,设备端LLM为AI助手提供支持,帮助完成上下文数据到文本生成以及日常生活中的复杂任务自动化[25, 95]。可穿戴设备也因设备端LLM受益,能够实现自然语言接口进行数据搜索和常时AI辅助[49, 156]。在企业环境中,设备端LLM可增强软件开发流程,例如自动化GUI测试和崩溃重现[74, 123]。此外,设备端LLM还能够进行安全的本地化文档处理和问答任务,确保办公环境中的数据隐私[131, 151]。在工业领域,设备端LLM推动了机器人和人机交互的进步[56, 175],并且能够进行轻量级文本识别和实时传感器数据分析,提高运营效率和决策能力,广泛应用于各种工业场景[42, 207]。 通过采用这些创新技术和方法,开发者能够利用减少的模型大小和改进的计算效率,促进LLM在边缘设备上的无缝集成。这不仅提升了边缘计算的性能,还扩展了LLM在各种资源受限环境中的应用潜力,可能彻底改变边缘AI应用的格局。本文的其余部分结构如下:第2节分析了LLM复杂性与边缘设备能力之间的不断扩大的差距,回顾了关于高效LLM和边缘计算的相关工作,并分析了设备端LLM优化的研究趋势,为本综述奠定背景。第3节和第4节分别全面探讨了离线预部署技术和在线运行时优化的最先进方法。第5节深入研究了LLM在设备端应用的广阔潜力。第6节讨论了设备端LLM领域的未来方向和开放性挑战,而第7节总结了本综述的关键结论和所获得的见解。
为了补充这些努力,自然语言处理(NLP)领域的研究也取得了显著进展。Xu和McAuley [218]回顾了提高预训练语言模型压缩和加速效率的方法。Hedderich等人[67]综述了在低资源NLP环境中提升性能的方法。Wan等人[196]全面回顾了高效LLM的研究,将文献划分为模型中心、数据中心和框架中心的研究方法。Treviso等人[187]总结了在数据、时间、存储或能量受限的条件下进行NLP的方法,强调了性能与资源消耗之间的权衡。虽然这些综述为LLM优化提供了宝贵的见解,但它们并未专门解决边缘和移动环境中的独特约束。因此,迫切需要针对边缘计算限制下LLM的高效实现和管理进行专门研究。 我们的综述区别于这些工作,提供了LLM在边缘和移动计算环境中的全面深入分析。两个最相关的综述是关于LLM的移动边缘智能[155],主要侧重于跨不同计算节点的协作资源管理,和个人LLM助手[111],探讨了LLM助手在个人计算环境中的应用和场景。然而,前者未充分解决边缘设备的低级别优化问题,后者缺乏对边缘设备运行时优化的系统分析。为了弥合这一差距,我们从整体的、自上而下的角度探讨了用于边缘和移动设备的LLM,涵盖了从离线预部署技术到在线运行时优化以及在各个领域中的设备端应用的整个优化流程。我们的分析不仅提供了对边缘部署的LLM模型架构和推理/训练范式的细致理解,还为基于Transformer架构的框架和硬件级优化提供了宝贵的见解。此外,我们探讨了硬件-软件协同设计策略,以增强LLM在资源受限设备上的性能。这种多方面的研究方法使我们的综述与众不同,提供了对LLM在边缘设备上部署的挑战和解决方案的全面分析,从高级架构考虑到低级框架和硬件优化。 如图4所示,设备端LLM研究方向的时间分布清晰展示了从2019年到2024年的演变过程,分为三大类:预部署技术(蓝色)、运行时优化(紫色)和设备端应用(绿色)。量化、剪枝、知识蒸馏和低秩近似等离线预部署技术在整个时间段内持续受到研究关注。在线运行时优化,包括跨设备优化、资源感知调度、硬件-软件协同设计、框架级优化和硬件级优化,自2021年起获得了显著的发展。个人、企业和工业应用中的设备端应用在时间线的后半段尤为引人注目,表明了边缘AI和移动LLM部署的日益增长的趋势。该图表突出了在优化和部署用于资源受限环境的LLM方面方法的快速发展和多样化,反映了高效设备端AI在各个领域中日益重要的作用。我们的综述综合了这些发展,提供了关于设备端LLM部署的最新全面分析。通过这样做,我们希望为研究人员和从业者提供一个坚实的基础,以推动这一快速发展的领域的进一步进步。
大型语言模型(LLMs)的普及引发了在移动和边缘设备上部署的需求激增,这一需求源于对增强隐私、降低延迟以及在连接受限环境中提高服务可用性的迫切要求。这种向边缘计算转变的范式为LLMs带来了新的发展前景。然而,由于LLMs固有的计算复杂性和巨大的内存需求[52],这一过程面临重大挑战。因此,离线预部署技术成为了关键策略,旨在大幅减少LLMs的计算和内存占用,同时保持其性能完整性。这些技术在模型部署到目标边缘设备之前应用,为在资源受限环境中的高效执行提供了保障。 如图5所示,LLMs离线预部署方法的核心是模型压缩,主要分为四类:量化、剪枝、知识蒸馏和低秩近似。除了这些核心技术外,其他创新方法也在离线预部署阶段发挥着重要作用,进一步提升了模型的效率和性能。
我们已经讨论了在预部署阶段的离线优化技术,重点是预训练小型模型。虽然这些方法可能无法完全在边缘设备上执行,但它们生成的紧凑LLM适合高效部署。本节介绍了用于直接在边缘设备上进行高效推理或微调的在线运行时优化方法。如图7所示,LLM的运行时优化可分为五个主要方面。从自上而下的角度来看,包括跨设备优化、资源感知调度、框架级优化和硬件级优化。此外,硬件-软件协同设计跨越了多个层次。
本综述全面回顾了设备端LLM的最新进展和技术,这是一个快速发展的研究领域,旨在普及这些强大的AI模型。通过结构化的分类体系,我们系统地探讨了优化LLM以便在资源受限设备上进行预部署和执行的两种主要方法:离线预部署技术和在线运行时优化。此外,我们还分析了设备端LLM的多样化应用,突出了其广阔的潜力。展望未来,效率将是边缘LLM发展的关键驱动力,推动创新并应对主要挑战。本综述为研究人员和从业者提供了宝贵的资源,奠定了进一步发展高效设备端LLM的坚实基础,推动更具可访问性和可持续性的AI解决方案的实现,进而释放LLM的全部潜力,惠及更多用户并支持更多样化的应用。