知识图谱(KGs)在许多领域都有应用,如金融、制造和医疗等领域。虽然最近的努力已经创建了大型的KGs,但它们的内容还远远不够完整,有时还包括无效的语句。因此,通过KG的完成和KG的验证来提高KG的覆盖率和准确性是至关重要的,这些都被称为KG的完善。在这种情况下,为KG的完善输出提供人类可理解的解释也是至关重要的,这样人类就会对完善后的KG质量产生信任。
通过搜索和浏览进行的KG探索,对于用户了解KG的价值和对下游应用的限制至关重要。然而,KG的庞大规模使得KG的探索具有挑战性。虽然KG的类型分类法是一个有用的资产,但它仍然不足以进行深度探索。
本论文通过对KG的逻辑推理,结合KG嵌入模型和文本挖掘等其他技术,解决了KG细化和KG探索的挑战。我们为这些目标引入了提供人类可理解的输出的方法。
具体来说,本论文包括以下贡献:
为了解决KG的不完整性,我们提出了ExRuL,一种通过在Horn规则的主体中添加例外(即否定的原子)来修订Horn规则的方法。学习到的规则可以用来预测新的事实,以填补KG中的空白。在真实世界的KG上的实验表明,例外意识的规则极大地降低了事实预测的错误率。此外,规则为这些预测提供了用户可理解的解释。
我们还提出了RuLES,一种利用缺失事实的概率表示的规则学习方法。该方法通过结合预先计算的KG嵌入和文本语料库的反馈,反复扩展从KG诱导出的规则。该方法利用了新设计的规则质量衡量标准。RuLES提高了所学规则及其预测的质量。
为了支持KG验证,我们提出了ExFaKT,一个为候选事实构建人类可理解的解释的框架。该方法使用规则将一个候选事实改写成一组更容易发现和确认(或反驳)的相关事实。ExFaKT的输出是一组来自文本和KG的候选事实的语义痕迹。实验表明,基于规则的重写极大地提高了所发现的痕迹的召回率,同时保留了高精确度。此外,这些解释支持手动和自动的KG验证。
为了促进KG的探索,我们介绍了ExCut,一种将KG嵌入与规则挖掘相结合的方法,以计算带有解释的信息性实体集群。集群的解释由区分这个集群的实体关系的简明组合组成。ExCut通过迭代交织学习嵌入和规则,共同提高了实体集群及其解释的质量。实验表明,ExCut产生了高质量的聚类,为它们计算的解释帮助人类理解这些聚类中的实体之间的共同点。
人工智能追求的是开发能够推理出理性决策的自动化代理。如果没有关于世界的足够知识,自动推理是不可行的[Lenat and Feigenbaum, 1991]。对这种知识的需求推动了各种努力,将人类知识表现为机器可读的结构化模型。理想情况下,创建的资源应该同时保持高覆盖率和高准确性。
对机器可读知识的需求体现在创建一些适合自动推理任务的大型结构化知识库,这些知识库后来被称为知识图谱。
知识图谱(KGs)是事实三要素h主语谓语宾语i的大集合。主语和宾语是代表人、地方、组织等的实体,而谓语是它们之间的关系。此外,有些KG还包括一个类型化系统,表明KG实体的类型和这些类型分类学之间的关系。类型化系统对推理和探索任务很有价值。
例1.1. 关于阿尔伯特-爱因斯坦的知识,比如他是一个出生在德国乌尔姆、生活在美国的科学家,以三要素的格式表示为。
<阿尔伯特-爱因斯坦 生于 乌尔姆>
<乌尔姆 位于 德国>
<阿尔伯特-爱因斯坦 移民 到美国>
而上述实体背后的类型化系统包括:
<阿尔伯特-爱因斯坦 属于 科学家>
<乌尔姆 属于 城市>
<德国 属于 国家>
<科学家 属于 人>
历史。早期的KG是手工制作的;结果是高质量的KG,但范围和规模有限,例如,Cyc [Lenat, 1995] 和WordNet [Miller, 1995]。随着新千年的开始,自动知识采集的进展导致了所构建的KG在规模、质量和覆盖面方面的飞跃。一些大规模的KG出现了,包括Freebase [Bollacker et al., 2008]和Wikidata [Vrandecic and Krötzsch, 2014],它们是通过在线社区手动构建的。其他KG项目,如DBpedia[Auer等人,2007]、YAGO[Suchanek等人,2007]、BabelNet[Navigli和Ponzetto,2012]、NELL[Mitchell等人,2015]和KnowledgeVault[Dong等人,2014]利用来自异质资源的(半)自动策展技术。同时,对现有的KGs进行调整和互联的努力,比如,[Saeedi等人, 2018, Raad等人, 2020]出现了,目的是创造一个统一的视图,这被称为关联开放数据[Bizer等人, 2011]。
应用。KGs被用于信息检索任务,比如语义搜索[Haussmann, 2017, Dietz等人, 2018]和问题回答[Diefenbach等人, 2018, Abujabal, 2019]。它们对于文本分析和语言理解任务也至关重要。在这类任务中,KGs提供了所需的语义和背景,以分析和提取来自噪声源的信息。此外,KGs拥有描述现实世界动态和人类常识的隐含模式,这在推理[Liu等人,2020]和数据清理[Chu等人,2015]任务中很有用。
KGs的使用已经超出了通用搜索和文本分析的范围,例如[Singhal, 2012],而扩展到更多特定领域的应用。KGs被广泛用于商业目的,例如,在推荐系统中[Wang等人,2019b, Guo等人,2020]。KGs也被利用于更复杂的领域,如学术文献[Wan等人,2019]、法律[González-Conejero等人,2018,Junior等人,2020]、金融[Reuters,2017,Meij,2019,Albrecht等人,2019]和制造[Bader等人,2020,Mehdi等人,2019,Kalayci等人,2020]。最值得注意的是,KGs在敏感领域逐渐被采用,如医疗保健[Ernst et al., 2015, Noy et al., 2019, Terolli et al., 2020, Li et al., 2020]
覆盖率和质量。知识图谱的质量是由其构建过程决定的。例如,贡献者的专业知识和偏见决定了人工构建的KGs的质量[Demartini, 2019]。同样,自动策划的KGs也受到来源的质量和提取方法的有效性的影响[Weikum等人,2020,Hogan等人,2020]。尽管现有的知识图谱规模很大,但它们仍然有几个缺点[Darari等人,2013,Hogan等人,2020],包括(i)实体和关于实体的事实都不完整;有时(ii)不准确,表现为不正确的策划或过时的陈述(例如,婚姻状况的改变)。
KG的缺点直接影响到下游应用的有效性。例如,在推理任务中,KG的覆盖率和准确性对于得出有效的结论都是至关重要的。同样,在语义文本分析中,缺失的实体和关系会损害实体链接算法的输出质量。
完善的方法。鉴于上述KG的局限性,提高现有KG的质量至关重要,这就是KG细化的目的[Paulheim, 2017]。与KG构建不同,KG细化利用现有的KG事实,可能与其他资源相结合,以执行两个主要任务:(i)KG完成,涉及预测KG实体之间的缺失关系,以及(ii)KG验证,旨在确保KG中事实的正确性和一致性。
补全和验证的方法分为两类:符号化(基于逻辑)和亚符号化(即基于统计)方法。符号方法,例如[Drabent等人,2009,Nakashole等人,2012a,Fierens等人,2015,Bienvenu等人,2016],在KG上学习推理规则,并利用这些规则来推断新的事实或使现有事实失效。另一方面,亚符号方法从KG三要素中学习统计相关性模型,并利用这些模型来估计新的候选事实的可信度[Paulheim和Bizer, 2014, Nakashole和Mitchell, 2014, Nickel等人, 2016a]。最突出的统计方法是KG嵌入模型,例如[Bordes等人,2013,Trouillon等人,2016],其中KG被嵌入到一个多维的连续空间[Nickel等人,2016a],反映了KG实体之间的语义关联。
可解释性和可扩展性。KGs在敏感领域有应用,这些领域由于质量保证和安全原因需要人类参与,例如医疗保健。因此,开发具有人类可理解输出的细化方法是至关重要的。理解结果有助于人类建立对KGs质量的信任。可解释性也允许克服KG构建和细化方法的局限性。例如,可解释的结果可以帮助检测和解决KG嵌入模型的社会偏见[Fisher等人,2020]。
统计方法有能力处理噪声和大规模数据[Nickel等人,2016a],并支持异质数据模式的融合,例如,文本与关系图元[Wang等人,2014a]。然而,它们受到一些限制;特别是,它们的结果不容易解释[Bianchi等人,2020]。另一方面,产生可解释的结果是符号方法的一个核心优势[Eiter等人,2016,Martires等人,2020]。然而,仅靠逻辑推理无法处理噪声源[Ji等人,2011]。
将基于逻辑的方法和统计方法结合起来,有可能开发出大规模的KG细化方法,产生人类可理解的结果。更具体地说,对KG的规则学习可以为解释获得的结果提供一个很好的代理,而统计技术可以提供逻辑推理的接口,以收集来自噪声源的信号。
对于知识工程师来说,KG探索对于了解KG的价值和对下游应用的限制是至关重要的。然而,鉴于现有KG的规模,探索KG是具有挑战性的。此外,KG包含异质数据,并且缺乏预定义的模式[Mohanty和Ramanath,2019];因此,在KG上组成探索性查询是繁琐而耗时的。
已经开发了几个KG可视化和导航工具,以促进KG的探索[Gómez-Romero等人,2018]。其他方法支持通过基于KG的自动补全[Mohanty and Ramanath, 2019]、查询扩展[Lissandrini et al., 2020]或通过实例查询[Mottin et al., 2016]制定查询。然而,这些方法并不能提供对KG的整体看法,仍然需要大量的人工努力来掌握KG的主要内容。
另一种方法是对KG进行总结,以产生人类可读的综合视图[Cebiric等人,2019,Liu等人,2018]。在一些KG中,例如YAGO,类型系统在这种情况下是一种有用的资产。然而,这类KG中的类型仍然是粗粒度的,不能支持深度探索。因此,需要额外的支持,这可以通过发现语义相关实体的实体集群来实现。
本论文研究了符号推理与统计技术(如KG嵌入和文本挖掘)的整合,以解决以下挑战。
KG的完成。我们的目标是通过提高从KG中学习到的规则的质量来提高基于规则的完成的精度。
KG验证。我们研究收集支持(或反驳)候选事实的足够证据的挑战。
KG探索。我们研究了将语义相关的KG实体归入基于KG结构的可解释集群的问题。
最重要的是,我们专注于开发能够提供人类可理解的输出的方法。具体来说,我们提出了以下贡献。
ExRuL:例外意识的规则学习。虽然KG不可避免地注定是不完整的,但KG中的相关性可以被分析,以挖掘推理规则来预测可能缺失的事实。早期的方法,例如[Galárraga等人,2015],主要是学习Horn规则,它不考虑可能的例外。因此,使用Horn规则来推断新的事实往往会导致许多错误。
为了提高基于规则的预测的精确性,我们提出了ExRuL,一种将Horn规则有效修改为例外意识规则(即非单调规则)的方法。我们通过在这些规则的主体中加入从KG中挖掘的例外(即否定的原子)来实现这一目标。在现实世界的KG上进行的实验表明,与Horn规则相比,修订后的规则的预测误差大大降低。此外,修订后的规则不仅解释了推断的事实,而且还指出了规则在什么时候不应该推断出一个三元组。
RuLES:知识图谱嵌入的规则学习。标准的规则质量衡量标准,如置信度,是单独基于KG计算的。因此,当在稀疏的KG上计算时,这些措施可能会产生误导,使规则学习方法无法发现高质量的规则。
我们介绍了RuLES,这是一种规则学习方法,利用缺失事实的概率表示来解决这个问题。该方法通过结合预先计算的KG嵌入模型和文本语料库的反馈,迭代扩展了从KG诱导出的候选规则。该方法利用了新设计的规则质量衡量标准,超越了KG本身,提高了规则的排名。实验证明了我们方法的有效性,提高了所学规则及其预测的质量。
ExFaKT: 可解释的事实核查。自动事实核查通常从收集网络来源中候选事实的证据开始。这种证据通常是在支持或反驳的背景下直接提到该事实。然后,提取的证据被用来计算这个事实的真相分数。这个过程有两个限制。首先,直接提到的事实很难被发现,而且由于网络来源的自然报道偏差,直接提到的事实往往不够充分。第二,每当人类做出最终决定时,计算出来的分数是不够的,没有解释。
为了更好地支持KG策展人决定候选事实的有效性,我们提出了ExFaKT,一个为候选事实构建人类可理解的解释的框架。ExFaKT使用霍恩规则将一个候选事实改写成一组更容易发现和确认(或反驳)的其他事实。其输出是一组来自网络资源和KG的候选事实的语义痕迹(即证据)。实验表明,基于规则的重写大大增强了所发现的相关线索的召回率,同时保持了较高的精度。此外,实验表明,所发现的解释对人工和自动事实核查都有好处。最后,我们介绍了Tracy,一个向终端用户展示我们框架的网络界面。
ExCut:可解释的聚类。通过实体聚类,使用无监督的方法将实体归入信息子集,可以促进KG的探索。然而,仅仅对实体集进行聚类是不够的。用户还需要了解每个集群的性质。因此,聚类必须以用户可理解的标签形式进行解释。在KG中提供的粗粒度的类型可能不足以区分个别领域内的实体群。
为了促进KG的探索,我们介绍了ExCut,一种将KG嵌入与规则挖掘相结合的方法,以计算具有可理解解释的信息集群。每个解释都由区分相应集群的实体关系的简明组合组成。这种可解释的聚类可以帮助分析者探索实体集并发现潜在结构。此外,ExCut通过交错学习嵌入和规则,共同提高实体集群及其解释的质量。实验表明,迭代过程提高了聚类和解释的质量。此外,用户研究表明,所产生的解释可以帮助人类理解所识别的聚类。
本节列出了为构建本学位论文而发表的研究论文。它还指出了本论文作者在每篇出版物中的作用。
第3章(异常感知的规则学习)是基于:
[Gad-Elrab等人,2016] Gad-Elrab, M. H., Stepanova, D., Urbani, J., and Weikum, G. (2016). Exception-Enriched Rule Learning from Knowledge Graphs. In: International Semantic Web Conference (ISWC ’16).
作者在这项研究的形式化和执行方面发挥了主导作用。
[Tran et al., 2016] Tran, D., Stepanova, D., Gad-Elrab, M. H., Lisi, F. A., and Weikum, G. (2016). Towards Nonmonotonic Relational Learning from Knowledge Graphs. In: International Conference on Inductive Logic Programming (ILP ’16). The author made major contributions in formalizing the problem, developing the approach, designing the experiments, and analyzing the results.
作者在问题的形式化、方法的开发、实验的设计和结果的分析方面做出了主要贡献。
第4章(知识图谱嵌入的规则学习)是基于:
[Ho et al., 2018] Ho, V. T., Stepanova, D., Gad-Elrab, M. H., Kharlamov, E., and Weikum, G. (2018). Rule Learning from Knowledge Graphs Guided by Embedding Models. In: International Semantic Web Conference (ISWC ’18). The author made major contributions in formalizing the problem, developing the approach, designing the experiments, and analyzing the results.
作者在问题的形式化、方法的开发、实验的设计和结果的分析方面做出了主要贡献。
第5章(可解释的事实核查)结合了两者的产出:
[Gad-Elrab等人,2019]Gad-Elrab, M. H., Stepanova, D., Urbani, J., and Weikum, G. (2019). ExFaKT: A Framework for Explaining Facts over Knowledge Graphs and Text. In: International Conference on Web Search and Data Mining (WSDM ’19).
作者在这项研究的形式化和执行中发挥了主导作用。
[Gad-Elrab et al., 2019] Gad-Elrab, M. H., Stepanova, D., Urbani, J., and Weikum, G. (2019). Tracing Facts over Knowledge Graphs and Text. In: The Web Conference (WWW ’19).
作者在这项研究的形式化和执行中发挥了主导作用。
第6章(可解释聚类)是基于:
[Gad-Elrab等人,2020b] Gad-Elrab, M. H., Stepanova, D., Tran, T., Adel, H., and Weikum, G. (2020). ExCut: Explainable Embedding-based Clustering over Knowledge Graph. In: International Semantic Web Conference (ISWC ’20).
作者在这项研究的形式化和执行方面发挥了主导作用。
[Gad-Elrab et al., 2020a] Gad-Elrab, M. H., Ho, V. T., Levinkov, E., Tran, T., and Stepanova, D. (2020). Towards Utilizing Knowledge Graph Embedding Models for Conceptual Clustering. In: International Semantic Web Conference (ISWC ’20).
作者在这项研究的形式化和执行中发挥了主导作用。
第2章(背景)部分是基于:
[Stepanova et al., 2018] Stepanova, D., Gad-Elrab, M. H., and Ho, V. T. (2018). Rule Induction and Reasoning over Knowledge Graphs. In: Reasoning Web International Summer School (RW ’18).
作者在编写本教程的手稿中发挥了很大作用。
其他出版物。作者还对以下相关研究做出了贡献,这些研究不包括在本论文的贡献中。这项工作通过引入一种高效的方法来生成对KGs不一致的解释,从而解决了KG验证的难题。
[Tran et al., 2020] Tran, T., Gad-Elrab, M. H., Stepanova, D., Kharlamov, E., and Strötgen, J. (2020). Fast Computation of Explanations for Inconsistency in LargeScale Knowledge Graphs. In: The Web Conference (WWW ’20).
本论文的其余部分组织如下。第2章提供了与知识图谱和符号推理有关的必要背景。第3章和第4章描述了我们在通过挖掘例外意识规则来改善基于规则的完成方面的贡献。第5章描述了我们在通过收集复杂证据验证KG事实领域的贡献。第6章描述了我们通过发现可解释实体集群来促进KG探索的方法。最后,第七章总结了本论文的贡献并提出了未来工作的可能方向。