大语言模型(LLMs)在自然语言理解、文本摘要和机器翻译等多种任务中取得了显著成功。然而,LLMs 的通用特性往往限制了它们在需要专门知识的领域特定应用中的有效性,如医疗、化学或法律分析等。为了解决这一问题,研究人员探索了多种方法,通过将领域特定知识注入 LLMs 来提升其性能。在本综述中,我们提供了这些方法的全面概述,并将其归纳为四种主要方法:动态知识注入、静态知识嵌入、模块化适配器和提示优化。每种方法都有独特的机制,可以为 LLMs 注入领域专业知识,在灵活性、可扩展性和效率之间取得平衡。我们讨论了这些方法如何使 LLMs 能够处理领域特定任务,比较它们的优缺点,评估领域特定的 LLMs 与通用 LLMs 的表现,并强调该新兴领域中的挑战与机遇。对于希望深入研究该领域的读者,我们还总结了常用的数据集和基准测试。为了让研究人员及时了解最新的研究进展,我们维护了一个开源平台,地址为:officialrepo.com,专门用于记录领域特定 LLM 相关的研究。

2 背景2.1 领域特定知识领域特定知识是指与特定领域或应用相关的专门信息或专业知识,区别于跨多个领域的通用知识。通用知识使模型能够理解广泛的上下文,而领域特定知识对于需要精确、领域特定理解的专业任务至关重要。例如,在科学文本处理 [Bran et al., 2023] 中,模型必须理解复杂的科学术语、概念和方法论,以提供准确且相关的答案。同样,在电子商务搜索 [Zhao et al., 2024a] 中,理解领域特定术语(如产品类别、技术规格或购物俗语)对于提供相关的搜索结果和推荐至关重要。在医疗应用中,LLMs 必须理解医学术语、诊断、治疗方案和药物相互作用。例如,生物医学问答 [Pei et al., 2024] 和医疗报告摘要依赖于整合来自医学文献(如 PubMed [Dernoncourt and Lee, 2017])的知识。为满足这些需求,研究人员探索了多种将领域特定知识整合到 LLMs 中的方法。本文旨在对这些注入方法进行全面综述。2.2 知识表示与编码知识可以根据结构和应用需求以不同形式呈现。例如,知识图谱 [Zhang et al., 2024c] 将信息表示为图中的实体和关系,从而实现结构化推理和推断。这些图谱广泛应用于问答系统和推荐系统等任务中,其中实体之间的关系至关重要。同样,以文本形式存在的知识(如维基百科 [Jeong et al., 2024])提供了大量非结构化信息。知识也可以以向量空间的形式存储,而非可读文本或图谱格式。例如,软提示调优 [Singhal et al., 2023a] 学习向量形式的有用知识,并将其与原始输入连接,以指导 LLMs 执行特定的下游任务。除了外部表示,知识还可以从模型内部涌现。例如,思维链提示 [Yao et al., 2024] 引入了中间推理步骤,帮助模型将复杂任务分解为可管理的部分。通过显式地推理这些步骤,LLM 可以更有效地利用其内部存储的信息,从而在需要逻辑推理、多步计算或决策的任务中表现更佳。

3 知识注入范式

本节介绍了四种主要的知识注入范式:动态知识注入、静态知识嵌入、适配器和提示优化。这些范式展示了将外部领域特定知识整合到LLMs中的多种机制。我们使用统一的符号(如表1所述)系统地表示这些过程。外部知识K通过修改原始参数θ、引入额外参数ϕ或利用辅助机制整合到LLMs中。

**3.1 动态知识注入

动态知识注入定义为首先从外部知识库或知识图谱中检索信息,然后将其与输入结合以供LLMs使用的过程:

该范式提供了快速的推理,因为它消除了额外的检索步骤,并且通常表现更强。然而,它也面临一些挑战,例如更新成本高(每当领域知识变化时都需要微调)以及可扩展性问题,因为嵌入大型或频繁变化的知识库可能计算成本高昂。3.3 模块化知识适配器为解决静态知识嵌入的高更新成本问题,另一种范式——模块化知识适配器——引入了小型可训练模块,这些模块可以插入基础模型或与其并行运行,以存储领域特定知识,同时节省计算资源。在这种方法中,LLM的原始参数θθ通常保持冻结,以保留模型的通用能力。给定知识数据集KK,适配器参数ϕϕ通过最小化以下目标进行训练:

其中,pp 表示包含隐式领域知识或特定指令的文本提示。提示优化具有显著优势,包括消除对外部领域知识库的依赖并避免训练。然而,它也面临一些挑战,因为设计有效的提示可能既复杂又耗时。此外,长提示可能会减少可用的上下文窗口,从而可能影响模型的效率和性能。3.5 四种范式的比较 表2:基于训练成本、推理速度和局限性的知识注入范式选择指南动态知识注入在运行时整合外部知识,提供了灵活性和对新信息的适应性,而无需增加训练成本。然而,它需要一个有效的检索模块,推理速度高度依赖检索性能,这可能会减慢整体过程。静态知识嵌入在预训练或微调期间嵌入领域专业知识,需要大规模的领域特定数据和大量的训练资源(如GPU和时间)。虽然它不会产生额外的推理成本,但其局限性在于潜在的灾难性遗忘风险以及无法适应不断变化的信息。模块化适配器作为一种折中方案,允许即插即用的组件以最少的训练数据增强领域特定能力。只需训练少量参数,从而降低了训练成本,且推理速度几乎不受影响。然而,训练数据的质量显著影响该方法的性能。提示优化则完全避免了重新训练,通过精心设计的输入激活已有知识。它对推理速度没有影响,但依赖于大量人工努力来找到最佳提示。该方法在利用新知识方面能力有限,主要激活已有知识。我们在表2中总结了这些比较,作为实用指南,帮助根据具体任务需求和场景确定最合适的方法。

4 应用

4.1 生物医学

生物医学领域受益于丰富的专业语料库,如PubMed [Dernoncourt and Lee, 2017] 和MedQA [Jin et al., 2021],这使得开发专门针对生物医学文本训练的LLMs成为可能。这些模型通常采用静态知识嵌入方法,充分利用生物医学数据的领域特定丰富性。例如,PMC-LLaMA [Wu et al., 2023] 通过在S2ORC数据集 [Lo et al., 2020] 中筛选的490万篇PubMed Central文章上进行进一步预训练,扩展了LLaMA 7B模型,完成了五个训练周期以有效嵌入生物医学知识。类似地,Med-PaLM 2 [Singhal et al., 2023b] 基于PaLM 2通过指令微调构建。该微调结合了多种医学问答数据集,包括MedQA、MedMCQA [Pal et al., 2022] 和HealthSearchQA [Singhal et al., 2023a]。除了基础模型外,整合外部工具和知识可以进一步提升性能。例如,GeneGPT [Jin et al., 2024] 利用在代码任务上预训练的LLM,通过使用NCBI Web API来应对GeneTuring测试。该方法结合了上下文学习和增强的解码算法,能够识别并执行API调用。类似地,Med-PaLM [Singhal et al., 2023a] 引入了向量提示——存储和检索医学领域知识的表示——以扩展Flan-PaLM [Chung et al., 2024] 的能力。

4.2 金融

经过微调的金融LLMs通过任务特定训练,展示了将通用模型适应领域特定任务的显著进展。PIXIU [Xie et al., 2023] 在13.6万条针对金融任务的指令样本上微调LLaMA,使模型能够处理广泛的领域相关场景。InstructFinGPT [Zhang et al., 2023] 在来自两个金融情感分析数据集的1万条指令样本上微调LLaMA,主要专注于金融分类任务。FinGPT [Yang et al., 2023] 引入了一个端到端的框架,用于在金融行业中训练和部署FinLLMs。利用LoRA技术,FinGPT在大约5万条任务特定样本上微调开源LLMs(如LLaMA和ChatGLM),实现了无需完全重新训练的高效微调。相比之下,从头训练的金融LLMs旨在创建专门为金融任务设计的模型。BloombergGPT [Wu et al., 2023] 利用来自Bloomberg特定数据的50亿个token子集(仅占其总训练语料库的0.7%)来定制其模型以适应金融应用。XuanYuan 2.0 [Zhang and Yang, 2023] 结合了3660亿个token进行预训练,并额外使用130亿个token进行微调,创建了最大的中文金融聊天模型。类似地,Fin-T5 [Lu et al., 2023] 引入了基于T5架构的中文金融预训练语言模型,使用了300GB的金融语料库。此外,SNFinLLM [Zhao et al., 2024a] 在推理过程中动态整合实时金融数据,以增强决策能力,展示了领域特定预训练和适应性在金融LLMs中的价值。4.3 材料科学与生物医学领域不同,在材料和化学领域,由于缺乏大规模语料库,研究主要集中在利用任务相关工具,这与动态知识注入范式一致。例如,Xie et al. [2024] 展示了Darwin 1.5如何利用自然语言输入和两阶段训练策略,在材料发现和设计任务中取得显著改进。Bran et al. [2023] 引入了ChemCrow,这是一个通过化学专家设计的工具增强LLMs的框架,用于有机合成和药物发现等下游任务。还有关于提示优化的研究 [Tang et al., 2025],表明设计更好的规划提示可以有效利用模型的内部知识来协调复杂任务。这种方法利用多个LLMs的规划和执行能力,实现化学实验的自主性。最近,化学领域对静态知识嵌入和模块化知识适配器的探索兴趣日益增加。例如,Chen et al. [2024] 策划了一个QA数据集,用于微调预训练模型(如BERT和LLMs中的Llama),旨在提高其在化学相关任务中的表现。类似地,Xie et al. [2024] 引入了Darwin 1.5,这是一个为材料科学量身定制的开源大型语言模型。

4.4 人本科学

我们介绍的最后一个领域是人本科学,涵盖了广泛的应用,如心理咨询、金融预测、社会行为预测和法律推理。所有这些领域都围绕理解和满足人类需求、行为和决策过程展开。在心理健康领域,PsyQA [Sun et al., 2021] 等数据集为训练心理咨询场景中的模型提供了基础。例如,SoulChat [Chen et al., 2023] 是一个在10万条长文本心理咨询会话上通过静态知识嵌入微调的模型,专为共情对话设计。类似地,MeChat [Qiu et al., 2023] 采用动态知识注入以适应实时输入,显著增强了其情感支持能力。这些进展展示了人本科学通过个性化和情境感知解决方案应对复杂现实挑战的潜力。在教育领域,LLMs在应对个性化学习、课程对齐和互动教学等挑战方面展现了巨大潜力。例如,个性化学习要求模型适应个体需求,提供定制反馈和情感支持。EduChat [Dan et al., 2023] 通过静态知识嵌入利用心理学和教育学的教育理论,支持开放问答、作文批改和情感支持等任务。类似地,QiaoBan [Weixiang et al., 2023] 专注于以儿童为中心的教育,通过提示优化根据儿童心理和情感状态调整模型行为,专门为年轻学习者服务。领域特定教育和互动教学也通过LLMs取得了进展。CyberQ [Agrawal et al., 2024] 通过AISecKG [Agrawal, 2023] 结合静态知识嵌入和动态知识注入,生成基于网络安全最佳实践的问答。互动教学则受益于SocraticLM [Liu et al., 2024c] 等模型,该模型通过在SocraTeach数据集上微调的适配器,引导学生进行批判性思维和问题解决。在社会科学领域,SocialLLM [Jiang and Ferrara, 2023] 等模型结合静态知识嵌入和动态知识注入,分析社交网络中的人类行为。适配器促进大规模数据整合,而提示优化则引导模型关注特定的社会行为模式。FPS [Liu et al., 2024e] 和FUSE [Liu et al., 2024f] 等模型使用提示优化来模拟虚假新闻在社交网络中的传播和演变,帮助理解 misinformation 的影响。表3总结了主流模型及其信息。更多跨领域的模型可访问:Survey-official-repo。

5 工具、资源与分析

5.1 知识注入框架

本节详细介绍了四种开源框架,分别对应不同的知识注入方法,以促进理解与应用:KnowGPT [Zhang et al., 2024c] 用于动态知识注入,StructTuning [Liu et al., 2024d] 用于静态知识嵌入,K-Adapter [Wang et al., 2021] 用于模块化知识适配器,以及SelfLift [Cheng et al., 2024] 用于提示优化。KnowGPT 通过强化学习从知识图谱中提取高度相关的子图,动态结合知识图谱与提示优化。这些子图以三元组形式表示,并通过多样化的提示模板转化为自然语言提示,供语言模型解释和利用。KnowGPT框架显著降低了LLMs的API调用成本,同时提升了其在领域特定任务中的表现。StructTuning 采用结构感知的方法,通过两阶段策略将领域知识嵌入预训练模型:结构感知持续预训练将知识编码到模型参数中,而结构感知监督微调通过结构化问答任务优化理解。该框架在关系分类和问答等知识驱动任务中展现了显著的性能提升,实现了通用性与效率的平衡。K-Adapter 将知识存储在适配器模块中。其核心方法是冻结原始模型参数,并为每种知识类型分配一个独立的任务特定适配器。这些适配器作为独立模块插入模型的中间层,以生成特定知识的增强表示。该设计有效缓解了灾难性遗忘问题,防止新注入的知识覆盖模型的已有知识。SelfLift 则通过迭代使用检索增强生成器创建无界记忆池,并利用记忆选择器选择输出作为下一轮生成的记忆。这是提示优化的一个优秀示例,模型的输出被动态优化并重复使用,以增强其在后续任务中的整体性能和连贯性。

5.2 数据集与基准测试

我们在表3中总结了领域特定LLM研究中常用的数据集或基准测试,观察到不同领域的数据集丰富度存在显著差异。生物医学领域拥有众多高质量数据集,如PubMed、PubMedQA [Jin et al., 2019] 和BioASQ [Tsatsaronis et al., 2012],支持问答和临床摘要等任务。相比之下,材料和化学领域的资源较为有限,数据集如USPTO和Enzymes主要关注化学反应。其他领域的多样化数据集则分散在心理健康(如PsyQA和SmileChat)和教育(如SocraTeach和儿童情感教育对话数据集)等领域。这种多样性突显了为LLMs定制领域特定数据集的努力,同时也强调了在代表性不足的领域中更广泛地策划基准测试的必要性。

5.3 领域特定LLM与通用LLM的性能对比

由于通用领域的强大LLMs也存在,因此有必要讨论领域特定LLMs与通用LLMs的对比,以确定特定知识注入过程是否必要。这里我们以生物医学领域为例,因为该领域的研究成果显著,如表4所示。结果来自相关论文或paperswithcode.com。首先,我们可以观察到闭源LLMs目前是最有效的模型,而通用领域与领域特定LLMs之间的性能差距相对较小。例如,GPT-4和Med-Gemini [Saab et al., 2024] 在MedQA数据集上均表现出色,得分超过90。然而,由于闭源LLMs缺乏透明度,开源LLMs的努力不应被忽视。在这一领域,领域特定LLMs通常优于通用领域模型。例如,PMC LLaMA-13B在MedQA数据集上比LLaMA2-70B高出10多分。这证明了领域特定LLMs在专业任务中实现卓越性能的价值。尽管通用领域模型可以提供强大的结果,但结合领域特定知识可以显著提升性能,尤其是在开源项目中。这突显了投资领域特定LLMs以应对专业领域独特挑战的重要性。

6 挑战与机遇

6.1 知识一致性整合知识注入使LLMs能够整合不同的领域特定知识。然而,检索到的知识可能与模型的预训练表示或其他检索到的事实冲突,导致输出不一致 [Xu et al., 2024a]。例如,在医疗或法律分析中,可能会出现冲突的治疗方案或矛盾的法律先例,从而导致不可靠的决策并削弱系统的可信度。为解决这一问题,未来研究必须专注于检测不一致性、解决冲突并保持整合知识的一致性。可以通过优先考虑可靠来源、应用领域特定规则或使用集成技术来平衡多重视角来解决冲突。对齐算法和验证模块可以进一步确保检索到的知识与模型的推理过程一致,并在影响输出之前验证其可靠性。这些努力对于增强知识增强型LLMs在复杂、高风险领域中的可靠性和适用性至关重要。6.2 跨领域知识迁移跨领域知识迁移涉及使LLMs具备在不同领域间泛化知识的能力。尽管这显著扩展了其适用性,但也因领域特定术语、本体和推理模式的复杂性和多样性而引入了挑战。例如,将化学知识迁移到医疗领域可能需要协调不同的数据结构和推理框架。克服这些挑战需要在模块化知识表示和迁移学习技术方面取得进展。未来研究可以探索混合方法,将静态嵌入与动态检索相结合,使LLMs能够在不牺牲深度的情况下灵活适应跨领域知识。此外,创建标准化的跨领域基准测试和数据集可以促进系统化评估,并推动多领域知识迁移方法的创新。7 结论通过领域特定知识增强的LLMs展现了显著的潜力,并引起了越来越多的研究兴趣。本综述系统回顾了LLM知识注入系统,探讨了知识表示方法、整合策略以及保持模型通用性的机制。我们还总结了生物医学、化学和计算社会科学等领域的应用。通过突出标准数据集、基准测试、挑战和未来机遇,我们旨在为激发进一步探索知识增强型LLMs以应对领域特定挑战提供有价值的资源。

成为VIP会员查看完整内容
2

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
大型语言模型的知识蒸馏综述:方法、评估与应用
专知会员服务
66+阅读 · 2024年7月4日
基础语言模型在持续学习中的最新进展:综述
专知会员服务
35+阅读 · 2024年6月9日
《高效多模态大型语言模型》综述
专知会员服务
67+阅读 · 2024年5月20日
大模型如何迭代?北大等《大型语言模型自我进化》综述
《大型语言模型持续学习》综述
专知会员服务
83+阅读 · 2024年4月26日
基于模型的强化学习综述
专知
34+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
31+阅读 · 2022年7月1日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
431+阅读 · 2023年3月31日
Arxiv
73+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员