针对预训练模型仍面临处理复杂任务所需的知识信息质量不高和数量庞杂的 挑战,而融合知识图谱的预训练模型可增强其性能。进一步研究并深入探讨如何有效地融合知识 图谱到预训练模型中,以丰富目前综述所包含的知识增强类型。【方法】分析并总结了近年来融合 知识图谱的预训练模型的相关文献,首先简要介绍了预训练模型引入知识图谱的原因、优势以及难 点;其次详细讨论了隐性结合、显性结合两类方法,并对代表模型的特点与优缺点进行了对比总结; 最后对融合知识图谱的预训练模型将面临的挑战以及未来研究发展趋势进行了讨论。【结论】融 合知识图谱的预训练模型核心问题是解决如何将知识库中的信息有效地融合到预训练模型中,未 来可以探索更加有效和高效的知识融合方法,以提高模型的性能和泛化能力。
近年来,深度学习在自然语言处理领域取得了 显著进展。其中,预训练模型在关系抽取[1]、文本分 类[2]等下游任务中都有优秀的表现。预训练模型是 一种通过自监督学习从大规模无标注数据中生成一 个基础网络的技术,并将学习到的特征重新进行微 调或迁移至另一个目标网络,所生成的网络结构即 为“预训练模型”[3]。预训练模型更加注重上下文理 解,将训练阶段得到的网络模型应用于后续特定下 游任务,避免了繁琐的再训练过程,其优点在于训练 成本小,配合下游任务有更快的收敛速度,同时也能 有效提高模型性能。 自BERT [4]、ELMO [5]等模型被提出以来,各种 预训练模型不断涌现。2023年 OpenAI公司正式 发 布 最 新 的 ChatGPT [6] (Chat Generative PretrainedTransformer)人机对话模型,标志着大规模 语言模型(largelanguagemodel,LLM)的成熟,谷 歌公司也发布 了 他 们 的 对 标 产 品 PaLM2 [7]模 型。 另一方面,经过微调或蒸馏的小型化大规模语言模 型,如 LLAMA [8]、GUANACOetal [9]也成为当下 的研究热点,并在多项测评中有出色的表现。此外, 如 QUANTIZATION [10]与SPECLNFER [11]等优化 技术使得以更低的资源需求部署大规模语言模型也 成为了可能。但一些研究表明[12],这些小型化的大 规模语言模型以及面向低资源场景的系统优化技术 往往都会 带 来 模 型 质 量 的 下 降,影 响 最 终 应 用 的 效果。 因此,面对深层次的专业化自然语言处理任务, 将特定种类的知识图谱作为外部知识融合到特定用 途的自然语言处理任务中[13]是一种有效途径。首 先,知识图谱中的实体和关系信息可以被视为先验 知识,在预训练模型训练数据不足时容易出现过拟 合或欠拟合的情况,而知识图谱中的实体和关系信 息可以作为额外的训练数据,有助于缓解数据稀疏 性问题。其次,知识图谱中的实体和关系之间有明 确的逻辑关系,可以帮助模型进行推理和推断。最 后,知识图谱中的实体和关系信息来自不同的领域, 可以支持模型在多个领域之间迁移学习,从而提高 模型的泛化能力。如图1所示,结合知识图谱的预 训练模型与传统预训练模型的学习方法对比。在预 测过程中,传统预训练模型只能通过短距离固定记 忆对掩码的字进行预测,难以学习到“北京、共和国” 等实体的完整语义。而结合知识图谱的预训练模型 通过学习实体关系可以正确预测到“中华人民”所对 应的“北京、共和国”等命名实体的关系。 虽然融合知识图谱到预训练模型会提升模型的 效率与准确率,但如何融合也伴随着极大的困难,难 点主要包括结构化知识编码、异构信息融合和信息 遗忘等问题。其中,如何将实体信息有效表达和编 码是一个关键问题;同时,不同领域的知识图谱的信 息来源不同,如何将它们融合起来也是一个难点;此 外,预训练模型融合外部知识后容易遗失之前训练 得到的知识,这也是一个需要解决的问题。这些难 点需要通过有效的方法和技术来克服,以实现预训 练模型和知识图谱的融合,进一步提高自然语言处 理的应用效果。在现有的将外部知识整合到预训练模型的综述 中,大多数研究侧重于不同形式知识的注入方法。 例如,HUetal [14]根据自然语言理解(NLU)和自然 语言生成(NLG)两个任务引出分类对知识增强型 预训练模型进行了归纳。ZHENetal [15]根据不同 的知识类型以及格式对外部知识如何注入预训练模 型进行了总结。然而,这些综述未对融合知识图谱 到预训练模型的方法进行详尽介绍和突出。因此, 需要进一步研究并深入探讨如何有效地融合知识图 谱到预训练模型中,以丰富目前综述所包含的知识 增强类型。 本文对近年来发表的融合知识图谱到预训练模 型的文献进行归纳总结,与现有综述文献的角度不 同,本文从预训练模型内部到外部以隐式与显式两 类方法对融合知识图谱到预训练模型的方法进行介绍,如图2所示,并对代表模型的特点进行了详细阐 述与说明。本文的主要贡献有: 1)相比于其他的知识增强型预训练模型综述, 本文主要对融合知识图谱的方法进行了分析总结, 针对性较强。 2)以结合知识图谱的预训练模型为切入点,帮 助研究人员了解该方向的研究趋势。 3)最后对融合知识图谱的预训练模型目前存 在的问题进行了总结,并提出了相应的解决思路。