【博士论文】《评估、创建和使用知识图谱的限制》2022最新230页博士论文，根特大学

2022 年 8 月 9 日 专知

几个世纪以来，人类一直在收集数据和表征信息，但数字技术的出现，特别是万维网的出现，导致了新的挑战：稳步增长的各种数据需要以系统和有意义的方式进行整合管理。否则，只剩下质量不明的大量无关联的数据。

为了实现信息的智能管理，我们需要以统一的方式表示数据。此外，我们需要表示限制条件，以定义哪些数据连接在某个用例中是有意义的或有效的，以表示手头的信息。一个简单但强大的方法是通过两件事来表示信息：概念和概念之间的关系。这就形成了一个以概念为节点、以连接节点的关系为边的图结构，即所谓的知识图谱。像这样，我们可以表示 "作者"、"人 "和 "书 "这三个概念，以及 "写 "或 "买 "这样的关系。而作者 "安迪-威尔 "写了《火星人》一书的信息是有意义的信息，《火星人》一书不能写作者 "安迪-威尔"。然而，对于计算机来说，如果没有限制条件来限制连接概念与关系的可能方式，这两个例子都是有效的。

表达什么是在特定环境下有意义的或者什么是高质量的限制是主观的，必须由人类来定义。在给定的例子中，限制可以是作者写书，作者也是一个人。在这种情况下，这些限制是所谓的公理：说明根据模型什么是真的。这些限制可以被计算机用来推断新的知识：根据安迪-威尔写了《火星人》这本书的知识，可以推断出他是一个作家和一个人。另一个限制可能是，只有人可以写书，而且数据库中的所有书都需要有作者。在这种情况下，这些限制是所谓的约束，用来识别无效的数据。这可以用于质量评估，以识别缺失的作者信息或错误的数据。

本论文主要研究人类对知识图谱的创建和使用限制。当定义抽象的概念，如 "作者 "或 "书 "时，人们通常把它称为词汇表。它的术语可以通过公理来限制意义，那么这个词汇就可以被称为本体论。当连接知识图谱中的具体数据时，如作者 "安迪-威尔 "和书 "火星人"，人们使用这种词汇表的术语将其称为数据，例如 "安迪-威尔是一位作者 "和 "火星人是一本书"。在某种情况下，对这些数据有效的东西可能受到限制。为了用机器友好的方式表示所有这些，我们可以使用万维网联盟（W3C）推荐的以下语言：（i）资源描述框架（RDF）来表示术语，（ii）RDF Schema（RDFS）和网络本体语言（OWL）来表示公理（iii）和形状约束语言（SHACL）来表示约束。

第一个挑战是支持用户根据使用的限制条件来评估知识图谱。在构建知识图谱时，现有的词汇表经常被重复使用，这使得一个系统中的信息在其他系统中也能被理解。这些词汇表通常包含影响潜在重用的公理：一些公理在计算上更加复杂，人们可能希望在某个使用案例中避免重用包含这些公理的词汇表。同样地，人们可能要评估现有约束条件对通用词汇的使用。但在这两种情况下，目前对用户比较和选择所使用的限制条件的知识图谱的支持有限。

第二个挑战是如何支持用户创建约束条件。通常情况下，领域专家最清楚他们要施加哪些限制，但他们不是知识图谱专家，需要一种用户友好的方式来创建知识图谱限制。其他研究表明，表示如何以视觉方式表示某些概念的可视化符号可以支持用户。目前，还没有这样的可视化符号来可视化知识图谱的约束。

限制条件的使用是特定的，因此在本论文中，我们专注于数据管理的某个用例：支持国家图书馆对社会媒体的保存。一方面，在保存动态社交媒体内容时，需要考虑不同的异质数据源。然而，目前还没有一个完整的社交媒体归档工作流程，可以有意义地结合不同的数据片段。另一方面，保存的内容需要被访问和查询，这对主观的数据质量约束提出了挑战。

为了解决第一个挑战，我们提出了一种方法来衡量知识图谱中限制条件的使用，并提出了收集到的原理和限制条件的统计数据。我们首先介绍了Montolo，这是一种定义抽象限制类型的方法，如 "subclass "和RDF中的具体表达，如rdfs:subClassOf。然后，我们介绍了一个在RDF中创建可互操作的限制使用统计的实现。我们通过测量（i）RDFS和OWL公理在来自通用LOV和特定领域的BioPortal资源库的一千多个本体中的使用情况，以及（ii）来自确定的GitHub资源库的SHACL形状中的限制使用情况，来证明这种方法的可行性。

为了解决第二个挑战，我们关注的是如何支持人类用视觉符号来创建约束，这些符号可以直观地显示SHACL中指定的所有约束。我们在计算机科学和知识图谱领域现有的常用可视化符号的基础上，提出了两个可视化符号ShapeUML和ShapeVOWL。我们根据认知有效的设计原则对它们进行了比较，因为它们是要被人类用户认知处理的，并在一个用户比较研究中对这两种符号进行了评估。

为了解决第三个挑战，我们引入了一个基于知识图谱的社交媒体归档解决方案和相应的质量评估与约束。我们的BESOCIAL解决方案是基于声明式的知识图谱生成：使用通用词汇及其公理来有意义地整合异质的社会媒体归档相关数据。此外，我们提出了社交媒体档案相关的数据质量类别、维度和指标，以及用知识图谱约束的低级验证来衡量相应的高级数据质量指标。我们遵循既定的方法，但与现有作品相比，我们的质量评估依赖于万维网联盟（W3C）的相关规范，而不是定制软件。

本论文的贡献为评估和处理知识图谱的限制提供了可互操作的手段。

Montolo使用户能够评估现有的知识图谱在公理和约束方面的使用情况。关于公理，我们发现来自通用LOV和特定领域的BioPortal资源库的词汇显示出类似的模式：95%以上使用基于RDFS的限制，但只有一半使用基于OWL的限制。创建的统计数据可以支持本体的重用：本体工程师现在可以依靠公理的使用统计数据来评估现有的本体。关于约束，我们发现了与公理使用类似的模式：概念之间的关系经常被限制在某些类别或数据类型中，而关于字面价值的约束则使用得较少。我们的统计数据揭示了一个可能的问题：一个自我实现的预言，即创建约束的工具只关注常用的约束类型，最终产生更多这样的约束。因此，少用的约束类型应该得到更多的关注。

ShapeUML和ShapeVOWL的可视化符号独立于特定的约束语言，并且是在考虑到认知有效性的情况下建立的。因此，人类可以利用他们的快速认知系统，而不必依赖特定的文本语法。我们的比较分析的定量部分显示，用户使用一种视觉符号或另一种视觉符号所犯的错误并没有减少，而且两种符号都有超过80%的问题被正确回答。因此，两种可视化符号都有可能被用于不同的使用案例，我们的定性分析也指出了可能的改进。

我们的BESOCIAL社交媒体归档工作流程使文化遗产专家能够使用声明性的手段来保存社交媒体，因此无需他们编写代码。此外，我们还定义了与社交媒体收集相关的质量类别、维度和指标，可供社区重新使用。这个用例体现了使用公理和约束来实现数据管理，并在数据整合和数据质量方面提供附加价值。开发的数据质量评估也可以应用于其他用例，因为我们的解决方案只依赖于公开的W3C相关规范。

未来方向包括增加对约束条件的可视化符号的采用，以及创建知识图谱限制的方法。

关于约束条件的创建，我们对两种可视化符号与知识图谱专家的比较评估所得到的结果，是向用户友好型支持知识图谱约束条件工作迈出的第一步。类似的研究可以与来自不同领域的专家一起进行，以改进可视化符号和实现符号的工具。后者可以通过调查不同的编辑工作流程来改进。此外，还可以研究如何用我们的可视化符号来表示SHACL以外的其他约束语言。一个有希望的候选语言是形状表达语言（ShEx），它在从事维基数据工作的社区中引起了关注。

目前有几种本体工程方法，但特别是随着SHACL等约束语言的出现，出现了新的建模范式。在这篇论文中，我们将公理和约束同时应用于文化遗产的使用案例，未来的工作可以研究一种通用的方法来支持知识工程师创建知识图谱。创建知识图谱的方法论支持何时使用哪些公理，何时使用哪些约束。这使得与限制有关的设计决策透明化，从而最大限度地减少了关于使用公理和使用限制的主观讨论。