融合知识图谱的预训练模型研究综述

针对预训练模型仍面临处理复杂任务所需的知识信息质量不高和数量庞杂的挑战,而融合知识图谱的预训练模型可增强其性能。进一步研究并深入探讨如何有效地融合知识图谱到预训练模型中,以丰富目前综述所包含的知识增强类型。【方法】分析并总结了近年来融合知识图谱的预训练模型的相关文献,首先简要介绍了预训练模型引入知识图谱的原因、优势以及难点;其次详细讨论了隐性结合、显性结合两类方法,并对代表模型的特点与优缺点进行了对比总结; 最后对融合知识图谱的预训练模型将面临的挑战以及未来研究发展趋势进行了讨论。【结论】融合知识图谱的预训练模型核心问题是解决如何将知识库中的信息有效地融合到预训练模型中,未来可以探索更加有效和高效的知识融合方法,以提高模型的性能和泛化能力。

近年来,深度学习在自然语言处理领域取得了显著进展。其中,预训练模型在关系抽取[1]、文本分类[2]等下游任务中都有优秀的表现。预训练模型是一种通过自监督学习从大规模无标注数据中生成一个基础网络的技术,并将学习到的特征重新进行微调或迁移至另一个目标网络,所生成的网络结构即为“预训练模型”[3]。预训练模型更加注重上下文理解,将训练阶段得到的网络模型应用于后续特定下游任务,避免了繁琐的再训练过程,其优点在于训练成本小,配合下游任务有更快的收敛速度,同时也能有效提高模型性能。自BERT [4]、ELMO [5]等模型被提出以来,各种预训练模型不断涌现。2023年 OpenAI公司正式发布最新的 ChatGPT [6] (Chat Generative PretrainedTransformer)人机对话模型,标志着大规模语言模型(largelanguagemodel,LLM)的成熟,谷歌公司也发布了他们的对标产品 PaLM2 [7]模型。另一方面,经过微调或蒸馏的小型化大规模语言模型,如 LLAMA [8]、GUANACOetal [9]也成为当下的研究热点,并在多项测评中有出色的表现。此外, 如 QUANTIZATION [10]与SPECLNFER [11]等优化技术使得以更低的资源需求部署大规模语言模型也成为了可能。但一些研究表明[12],这些小型化的大规模语言模型以及面向低资源场景的系统优化技术往往都会带来模型质量的下降,影响最终应用的效果。因此,面对深层次的专业化自然语言处理任务, 将特定种类的知识图谱作为外部知识融合到特定用途的自然语言处理任务中[13]是一种有效途径。首先,知识图谱中的实体和关系信息可以被视为先验知识,在预训练模型训练数据不足时容易出现过拟合或欠拟合的情况,而知识图谱中的实体和关系信息可以作为额外的训练数据,有助于缓解数据稀疏性问题。其次,知识图谱中的实体和关系之间有明确的逻辑关系,可以帮助模型进行推理和推断。最后,知识图谱中的实体和关系信息来自不同的领域, 可以支持模型在多个领域之间迁移学习,从而提高模型的泛化能力。如图1所示,结合知识图谱的预训练模型与传统预训练模型的学习方法对比。在预测过程中,传统预训练模型只能通过短距离固定记忆对掩码的字进行预测,难以学习到“北京、共和国” 等实体的完整语义。而结合知识图谱的预训练模型通过学习实体关系可以正确预测到“中华人民”所对应的“北京、共和国”等命名实体的关系。虽然融合知识图谱到预训练模型会提升模型的效率与准确率,但如何融合也伴随着极大的困难,难点主要包括结构化知识编码、异构信息融合和信息遗忘等问题。其中,如何将实体信息有效表达和编码是一个关键问题;同时,不同领域的知识图谱的信息来源不同,如何将它们融合起来也是一个难点;此外,预训练模型融合外部知识后容易遗失之前训练得到的知识,这也是一个需要解决的问题。这些难点需要通过有效的方法和技术来克服,以实现预训练模型和知识图谱的融合,进一步提高自然语言处理的应用效果。在现有的将外部知识整合到预训练模型的综述中,大多数研究侧重于不同形式知识的注入方法。例如,HUetal [14]根据自然语言理解(NLU)和自然语言生成(NLG)两个任务引出分类对知识增强型预训练模型进行了归纳。ZHENetal [15]根据不同的知识类型以及格式对外部知识如何注入预训练模型进行了总结。然而,这些综述未对融合知识图谱到预训练模型的方法进行详尽介绍和突出。因此, 需要进一步研究并深入探讨如何有效地融合知识图谱到预训练模型中,以丰富目前综述所包含的知识增强类型。本文对近年来发表的融合知识图谱到预训练模型的文献进行归纳总结,与现有综述文献的角度不同,本文从预训练模型内部到外部以隐式与显式两类方法对融合知识图谱到预训练模型的方法进行介绍,如图2所示,并对代表模型的特点进行了详细阐述与说明。本文的主要贡献有: 1)相比于其他的知识增强型预训练模型综述, 本文主要对融合知识图谱的方法进行了分析总结, 针对性较强。 2)以结合知识图谱的预训练模型为切入点,帮助研究人员了解该方向的研究趋势。 3)最后对融合知识图谱的预训练模型目前存在的问题进行了总结,并提出了相应的解决思路。