【CMU博士论文】利用文本语义学为知识图谱的获取和应用，105页pdf

知识图谱（KGs），通过实体和关系来表示世界知识，在真实世界的应用中无处不在。除了它们的结构特性，KGs还提供丰富的文本信息，因为实体通常对应于具有特定名称和描述的现实世界对象。尽管这些信息很重要，但在现有研究中大部分都被忽视或未被充分探讨。本论文旨在通过利用预训练的语言模型（PLMs）将文本信息整合到KGs的建模中，这些模型在捕捉自然语言的语义意义上已经展现出了有效性。

此目标分为两个互补的部分：提高KGs的质量以及利用KGs解决用户查询。在第一部分，我们专注于通过文本获取KGs。我们从一个同时学习KGs和文本的向量表示的预训练框架开始。它具有相互增强的KG-文本双模块，实现了在关系提取和实体分类上的强大结果（第2章）。为了解决大型KGs的可扩展性挑战，我们提出了一个增强检索的文本生成模型，用于KG的完成。它利用KGs中语义相关的三元组来指导缺失实体的生成，展现了最先进的性能，同时保持了低内存使用（第3章）。在第二部分，我们将注意力转向利用KGs进行关键的问答（QA）任务。在答案来源于KGs的设定中，我们提出了一个框架，该框架同时生成逻辑查询和文本答案，以产生更准确和稳健的结果（第4章）。然后我们扩展到答案主要来自文本语料库而不是KGs的场景。我们提出的方法利用KGs构建文本段落之间的链接。这种结构信息被利用来重新排列并修剪每个问题的相关段落，显著降低了计算成本（第5章）。最后，我们处理不完整的KGs的设定。我们介绍了第一个基准数据集，用于评估KG完成方法对问题回答的影响。我们的实验强调了共同研究KGs的获取和应用的必要性（第6章）。真实世界中的对象并不是孤立存在的；它们之间存在语义联系。例如，一种药物可以与疾病相关，作为其治疗方法，而一家公司可以与一个电子游戏相关，作为其开发者。知识图谱（KGs）捕获了这些联系，并将它们表示为图结构。在KGs中，对象被称为实体（节点），而它们之间的连接被称为关系（边）。KG内的基本单元被称为三元组，由三个元素组成：头实体、关系和尾实体，例如（Elden Ring，由...开发，FromSoftware），这表达了电子游戏Elden Ring是由游戏公司FromSoftware开发的。KGs的图结构允许它们展示真实世界对象之间的各种连接，并促进复杂的查询和分析。此外，KGs专注于捕获重要对象上的关键连接，并消除不正确或不相关的细节。鉴于这些好处，KGs已被应用于各种真实世界的场景，如问题回答[118]、信息检索[64]和推荐系统[104]，并且在财务[26]、营销[27]、医学[82]等不同领域中实施。 KGs的重要性在机器学习领域引起了广泛的关注。许多研究主要集中在KGs的结构上，同时将实体或关系仅表示为索引，从而忽略了它们的文本信息。例如，实体Elden Ring只是被表示为一个随机的唯一索引，如1203，没有语义意义，忽略了其文本名称“Elden Ring”和描述“Elden Ring是2022年由FromSoftware开发的动作角色扮演游戏...”。这既妨碍了KGs的获取，也妨碍了其应用。例如，考虑从文本声明中提取三元组的过程。当遇到像“FromSoftware因开发电子游戏Elden Ring而获得广泛认可”这样的陈述时，添加或验证文本丰富的三元组（“Elden Ring”，“由...开发”，“FromSoftware”）要比纯粹基于索引的三元组（1203，47，1580）容易得多。同样，当应用KGs来帮助用户的文本查询，如“我可以在PS5上玩Elden Ring吗？”时，拥有文本丰富的三元组（“Elden Ring”，“平台”，“PlayStation 5”）便于生成准确的答案。如果没有这样的文本信息，将文本句子或用户查询与纯实体和关系索引对齐可能会成为一个复杂的障碍。这些示例强调了KGs中文本信息的基本作用。它不仅简化了关系数据的获取，而且还增强了KGs在真实世界应用中的功能。

为了有效地利用这种文本信息，需要进行语义级的理解。再次考虑这个查询：“我可以在PS5上玩Elden Ring吗？”为了准确回应这样的查询，模型必须识别出“PS5”是指实体PlayStation 5，而短语“在...上玩...”对应于关系平台。然后，模型可以找到相应的三元组（Elden Ring, 平台, PlayStation 5）并提供正确的答案。这种解释超越了纯粹的词汇识别；它要求理解文本信息的基础语义。在真实世界情境中，这种理解尤为关键，因为KGs通常有正式和有限的命名约定，而用户查询或陈述可能是非正式和多样的。

本论文旨在开发新型模型，有效利用文本语义在知识图谱的获取和应用中。它基于现有的预训练语言模型（PLMs）[9, 22, 77]所奠定的基础，这些模型在文本语义建模中已显示出其优势。PLMs在大规模语料库上进行预训练，通过预测后续或被掩盖的词语来学习语言的表示。利用深度学习架构，如基于变换器[97]的模型，它们作为强大的特征提取器，并可以轻松适应各种下游任务。然而，由于PLMs是为非结构化文本序列设计的，它们在结构化的知识图谱上的应用呈现出重大挑战。为了应对这一挑战，我们的论文通过两个重要的关注部分来进行：1）通过文本获取知识图谱，重点是构建更准确和全面的知识图谱；2）使用知识图谱回答文本问题，目标是应用知识图谱解决用户查询。