大模型与知识图谱是知识表达的一体两面,如何结合两者是近期业界关注的焦点。来自英国爱丁堡大学等学者最新《大模型与知识图谱》的简述,讨论了大模型和知识图谱的互相促进的方式,值得关注!
大型语言模型(LLMs)已在知识表示领域——以及全球——引起轩然大波。这一转折点标志着从明确的知识表示到对明确知识和参数知识双方的混合表示的重新关注。在这篇立场论文中,我们将讨论社区中关于LLMs(参数知识)和知识图谱(明确知识)的一些常见争论点,并推测这种重新关注带来的机会、愿景以及相关的研究主题和挑战。
大型语言模型与知识图谱:机遇与挑战
大型语言模型(LLMs)在知识表示(KR)和整个世界中引起了轩然大波,因为它们在广泛的自然语言任务中展现出了人类级别的表现,包括一些需要人类知识的任务。在此之后,人们逐渐开始接受某些语言模型的参数中可能存在知识的可能性。LLMs的到来标志着知识计算的时代的开始,在这个时代中,KR内的推理概念扩大到基于各种知识表示的许多计算任务。这对知识表示领域来说是一个巨大的步骤。长时间以来,人们关注的是明确的知识,例如嵌入在文本中的知识,有时也被称为非结构化数据,以及以结构化形式存在的知识,例如在数据库和知识图谱(KGs)[123]中。从历史上看,人们长时间使用文本将他们的知识从一代传递到另一代,直到大约20世纪60年代,研究者开始研究知识表示以更好地理解自然语言,并开发了早期系统,例如MIT的ELIZA[180]。在21世纪初,知识表示和语义网社区合作标准化了广泛使用的知识表示语言,例如RDF[121]和OWL[55],在网络规模上,使用它们,大规模的知识库被更广泛地称为KGs[123],由于它们有用的图结构,实现了逻辑推理和基于图的学习。与LLMs的到来相伴的这一转折点,标志着从明确的知识表示向对明确知识和参数知识两者的混合表示的重新关注的范式转变。作为明确知识表示的流行方法,KGs现在被广泛研究用于与基于Transformer的LLMs结合,包括像BERT[39]和RoBERTa[104]这样的预训练掩码语言模型(PLMs),以及更近期的生成性LLMs,如GPT系列[23]和LLaMA[165]。一些工作使用LLMs增强KGs,例如,知识提取、KG构建和精炼,而其他工作使用KGs增强LLMs,例如,训练和提示学习,或知识增强。在本文中,考虑到LLMs用于KGs和KGs用于LLMs的两个方向,我们提出了一个从明确知识表示到对明确知识和参数知识两者的混合表示的重新关注的转变的更好理解。一个相关的调查论文[204]对使用LLMs进行KG构建和推理进行了全面的审查,而我们的工作为这一转折点提供了更深入的视角,不仅考虑了关系性KGs,还考虑了使用本体论作为模式的KGs,以及其他维度的结构化知识,包括表格数据[183]和数值[122]。在LLMs和KGs的交叉点上的其他研究与我们论文中涵盖的主题有轻微的重叠;例如,使用LLMs作为KGs的研究[5],使用KGs增强LLMs的研究[185],或者在三个与知识相关的任务上比较GPT-4、ChatGPT和SOTA微调方法——实体、关系和事件提取,链接预测和KG问题回答[204]。总的来说,这些论文中没有一个深入探讨这一转折点的具体应用的含义。为此,本文总结了社区内的常见争议点,介绍了在KGs和LLMs集成的一系列主题上的最新技术,并进一步提出了机会和挑战。
知识图谱与大型语言模型结合参数知识和明确知识的可用性所带来的机会和愿景,本节我们将按照四个不同的主题对使用LLMs和KGs的最近发展进行分类、总结和展示。
1. LLMs 用于KGs:知识提取和规范化
KG的构建是一个复杂的任务,要求从包括结构化、半结构化和非结构化数据在内的广泛来源收集和整合信息。传统方法通常依赖于为处理每种数据类型而特别设计的模块,并在内容多样且结构异质时面临困难。然而,LLMs 是在广泛的信息来源上训练的强大的NLP模型,使它们非常适合知识提取任务。本节介绍了使用LLMs从各种来源进行知识提取的工作。
实体解析与匹配实体解析(也称为实体匹配、实体链接或实体对齐)是将出现在多个异构数据集中并指向同一个实体的信息片段进行链接的过程[46, 50, 126]。过去的研究主要集中在为扁平结构化数据所代表的实体之间开发方法和相似性度量。然而,针对KGs的半结构化数据的实体解析是一个相对较新的主题,受到的关注明显较少。实体对齐的方法可以分为通用方法和基于嵌入的类别。通用方法,例如CG-MuAlign[203],使用图神经网络(GNNs)执行多类型实体对齐,利用邻近信息并泛化到未标记的类型,以及REA[129],通过结合对抗性训练与GNNs来解决多语言实体对齐问题,以应对输入的噪声标记数据问题。基于嵌入的实体对齐方法将图实体之间的符号相似性减少到一个向量空间中,以消除图组件的异质性并促进推理[156]。具体来说,总共有23种代表性的嵌入对齐方法在性能方面进行了交叉比较,但也显示它们在标签阶段需要大量的监督。因此,在未来的研究调查中,非监督方法和能够处理大规模KGs的方法是非常受欢迎的。LLMs在KGs的实体解析和链接中有多种用途[7]。首先,LLMs可以帮助标记训练数据,这通常是一个资源密集且耗时的步骤,阻碍了KGs的实体对齐性能。类似于[146]使用生成对抗网络(GANs)来减少标记数据的努力,我们认为LLMs可以提供KGs的标记样本并控制上述基于嵌入的方法的性能。此外,LLMs可以帮助构建稳固的实体匹配规则语料库,只要在图设置中定义了一个声明性形式化的逻辑语言L。这种逻辑语言的训练数据应作为输入提供给LLMs,类似于在文本语料库中可供消费的SQL语句。然而,需要进行提示工程以产生对于像DBpedia[9]和Wikidata[169]这样的实际大规模KGs有意义的规则语料库。可以设想为这些实际的大规模KGs提供实体匹配规则日志,与这些KGs的查询日志类似[18, 19]。总之,实体对齐和匹配是完整知识推理的必要前处理步骤。将通用实体链接方法与基于嵌入的方法相结合,以及利用LLM驱动的规则和标记数据构造,都可以更好地整合LLMs与知识推理[66]。后者整合LLMs和知识推理也可以提高性能,从而使模型的输出可解释和可解释,并填补符号和统计AI之间的差距。
知识从表格数据中的提取
从数据库、网页表格和CSV文件等表格数据中提取知识是构建KG的常见方式。对于已知语义(元信息)的表格,可以定义和使用启发式规则将其数据转化为KG事实。然而,现实世界的表格通常具有不明确的语义,重要的元信息(如表格名称和列标题)未明确定义。与此同时,在可以提取预期的知识之前,通常需要检索、探索、整合和策划原始数据。
近年来,基于Transformer的LM已被研究用于处理表格,尤其是它们的文本内容。它们可以被应用于表格向量表示作为其他预测任务的基础[168]。TURL [38] 是一个典型的表格表示学习方法,使用BERT [39],已应用于多个任务,如单元格填充、列类型注释和关系提取。类似地,RPT [162] 使用BERT和GPT进行表格表示模型的预训练。Starmie [47] 使用模板将列转化为序列,并使用可联合和不可联合的列对作为样本微调BERT,采用对比学习框架。
在所有表格处理任务中,语义表格注释,该注释将表格数据匹配到KG组件(例如,表格列到KG类,表格单元格到KG实体,列间关系到KG属性)可以直接应用于提取知识,用于KG的构建和填充[103, 76]。已经有几次尝试使用LLMs进行这些任务。Doduo [155] 将表格序列化为一个令牌序列,并训练BERT来预测列类型和列间关系。Korini等人[86]提示ChatGPT来注释语义列类型。当任务特定的示例极少或不存在时,ChatGPT的性能与RoBERTa模型相似。
尽管已经注意到了利用LLMs进行表格数据处理和KG构建,但仍然有很大的研究空间,特别是面临以下挑战:
将表格内容转化为序列:表格或带有其结构化上下文的表格元素需要被转化为一个序列,然后才能输入到LLMs中。对于不同的LLM利用场景,如微调LLMs、带提示的LLM推断以及LLM的指导调整,需要不同的转换方法。
表示和利用非文本的表格数据:表格通常不仅包含长文本和短文本,还包含如数字和日期等其他类型的数据。还有很少的工作考虑这些数据。
提取表格知识:LLMs主要用于处理和理解表格,但很少应用于知识提取的最后步骤。已知OntoGPT[25]使用ChatGPT从文本中提取实例以填充本体,但对于表格没有对应的工具。除了实例之外,提取关系事实更具挑战性。
从文本中提取知识
从文本中提取知识通常涉及自动提取实体及其相关关系,传统的流水线处理大量的句子和文档。这个过程使原始文本转化为可行动的知识,有助于各种应用,如信息检索、推荐系统和KG构建。LLMs的语言理解能力已经增强了这一过程。例如,
命名实体识别 (NER) 和实体链接:如4.1.1节所述,涉及识别和分类文本中的命名实体(如人、组织和地点)并将其链接(更多内容参见4.2.1节)到KGs。
关系提取:关注识别和分类实体之间的关系,利用LLMs的零射击和少射击的上下文学习技术[178, 93]。
事件提取:旨在检测和分类文本中提到的事件,包括其参与者和属性[170, 194]。
语义角色标记 (SRL):涉及识别句子中实体所扮演的角色,如主语、宾语和谓语[148, 199]。
这些方法允许LLMs从文本中提取信息,无需在特定领域进行大量的明确培训,从而提高其多功能性和适应性。此外,LLMs已经证明了在从英语之外的语言中提取知识的能力,包括低资源语言,为跨语言知识提取铺平了道路,并使LLMs能够在多种语言环境中使用[89]。
此外,对LLMs的提示引入了NLP领域的新范式和可能性。LLMs可以生成高质量的合成数据,然后可以用来微调较小的特定任务模型。这种方法,称为合成数据生成,解决了有限的训练数据可用性的挑战,并提高了模型的性能[77, 163]。此外,指导调整已经成为一种强大的技术,其中LLMs被训练在由明确指令描述的数据集上,使得能够更精确地控制和定制它们的行为以适应特定的任务[178, 174]。
还有,对于构建特定领域的KGs,风险更高,因此对生成的文本(由专家)进行审查是必要的。然而,这仍然是一个进步,因为人工注释的成本低于人类文本生成。
除了训练和利用这些LLM所需的大量计算资源需求之外,还存在各种挑战,包括在第2节中提到的挑战。更具体地说,以下未来的方向仍然是可能的: * 从非常长的文档中有效提取:当前的LLMs无法一次处理像小说这样的非常长的文档。在这方面,可以进一步改进建模长范围依赖性和执行语料级信息提取。 * 高覆盖率信息提取:几乎所有的提取流水线都关注高精度。然而,高回报率被忽视或未被充分探索[152]。建立具有高精度和高回报率的知识提取器将是建立终身信息提取器的一个巨大飞跃。
LLMs 用于 KGs知识图谱构建 我们强调了 LLMs 在改进知识图谱构建中的重要作用,重点关注这个领域的当前趋势、问题和未回答的问题。我们首先讨论链接预测,这是根据现有的知识图谱生成新事实的一种方法。接下来,我们考察归纳链接预测,一种预测未见关系的三元组的方法。我们的关注点随后转移到一种更为近期的方法,其中三元组直接从 LLM 的参数知识中提取出来。作为这个部分的结论,我们讨论了基于 LLM 的知识图谱构建方法的挑战。这些挑战涉及到长尾实体、数值以及这些方法的精确性问题。
**LLMs 用于 KGs 本体模式构建 **一个知识图谱通常配备有一个本体模式(包括规则、约束和本体)以确保质量,使知识访问更加容易,支持推理等。同时,一个独立的本体,通常代表概念性知识有时带有逻辑,也可以被视为一个知识图谱。在这部分,我们介绍 LLMs 被应用于学习本体模式和管理本体的主题。
**KGs 为 LLMs 提供支持:训练与访问 **LLMs 在 4.1 到 4.3 节中,我们讨论了使用 LLMs 为 KGs 提供支持的三个不同方面。在本节中,我们将研究相反的方向,即使用 KGs 为 LLMs 提供支持。这里有几个维度。首先,KGs 可以用作 LLMs 的训练数据。其次,KGs 中的三元组可以用于构建提示。最后但同样重要的是,KGs 可以用作检索增强语言模型中的外部知识。**4.5 应用 **将 KGs 和 LLMs 集成到统一的方法中具有巨大的潜力,因为它们的组合能够相互增强并以有价值的方式互补。例如,KGs 提供非常准确和明确的知识,这对于某些应用(如医疗保健)至关重要,而 LLMs 由于缺乏事实知识而被批评导致幻觉和不准确的事实。其次,LLMs 缺乏可解释性,相反,由于 KGs 具有符号推理能力,它们能够生成可解释的结果。另一方面,从非结构化文本构建 KGs 很困难,并且存在不完整性,因此,可以利用 LLMs 通过文本处理来解决这些挑战。各种应用都采用了这种将 LLMs 与 KGs 结合的方法,如医疗助手,问题回答系统[188]或 ChatBots,以及可持续性等。
结论
近年来,大型语言模型(LLMs)的进展为知识图谱(KG)研究标志了一个重要的转折点。尽管如何结合它们的优势的重要问题仍然悬而未决,但这为未来的研究提供了令人兴奋的机会。社区已经迅速调整其研究重点,新的论坛如 KBC-LM 工作坊 [79] 和 LM-KBC 挑战 [151] 已经出现,资源大量转向知识提取、整合和使用的混合方法。我们提出以下建议:
不要因为范式的转变而丢弃 KG:对于一系列可靠性或安全关键的应用,结构化知识仍然是不可或缺的,我们已经概述了 KGs 和 LLMs 如何相互促进的多种方式。KGs 是留下来的,不要仅仅因为时尚而抛弃它们。
杀掉你的宠儿:LLMs 已经大大推进了 KG 和本体构建管道中的许多任务,甚至使一些任务过时。对最为确立的管道组件进行严格的审查,并不断地与基于 LLM 的最新技术进行比较。
保持好奇,保持批判:LLMs 无疑是过去几年 AI 研究的最令人印象深刻的产物。尽管如此,公众和研究文献中都存在大量夸大的声明和期望,人们应该保持适度的批判反思。特别是,对所谓的幻觉问题的根本解决方法尚未出现。
过去已经结束,让我们开始新的旅程:由 LLMs 触发的进展以前所未有的方式颠覆了这个领域,并使得进入这个领域有了重要的捷径。在与知识计算相关的领域开始新的征程,现在是最好的时机。尽管目前的转变方向广泛开放,但随着研究者继续探索混合方法的潜力和挑战,我们可以期待在知识的表示和处理上看到新的突破,这将对从知识计算到 NLP、AI 乃至其他领域产生深远的影响。