OpenKG开源系列 | 人物百科知识图谱（东南大学）

会员服务 ·

OpenKG开源系列 | 人物百科知识图谱（东南大学）

2022 年 4 月 20 日 开放知识图谱

OpenKG地址：http://openkg.cn/dataset/figure-kg

GitHub地址：https://github.com/F-period/Open_Chinese_Figure_KG/

开放许可协议：CC BY 4.0

贡献者：东南大学（王然，漆桂林，殷春锁，王鹏，金日辉）

1、图谱简介

以人物为中心的知识图谱可以有效地显示个人信息和人际关系，并进一步支持相关应用。知识图谱上的人际关系搜索系统直观地说明了社会中人与人之间的关系。人立方搜索引擎和搜狗人物知识图谱都是例子，尽管出于隐私因素它们今天已经被禁用。此外，小型特殊的人物知识图可以促进历史和文化研究。在事件分析和书籍阅读任务中，可以构建相关的图形知识图作为一种辅助。

百科数据里包含了大量关于人物的信息，可以作为人物知识图谱的数据基础。下图是一个百度百科页面的展示，可以看到，百度百科中具有多模态、结构化与半结构化的多种数据信息。

目前从百科数据中构建知识图谱的工作大多基于自下而上的方法，这样可能导致构建的知识图谱范围广泛但较为稀疏。而我们的任务选择采用自上而下的方法从百科数据中构建知识图谱，由本体来指导我们的构建过程。且我们提出了一种半自动的本体构建过程，并结合模板和半监督模型，从百科全书中的自由文本中提取有关人物的知识。

我们的人物百科知识图谱以百度百科为数据基础，以人物为中心主题，图谱共计包含2,480,097个人物实体和422,612,281个相关三元组。图谱可借助导入neo4j数据库形成图形查询界面，以帮助用户理解和挖掘个人信息和人际关系，也有助于进一步支持相关应用。下图展示了用户使用我们知识图谱时的一个可视化界面。

2、构建方法

我们的任务构建一个特定领域的知识图谱的构建框架的一般过程，而对于我们在工作过程中遇到的每个实际问题，我们给出了一个可行的解决方案。下图展示了图形知识图构建的自上而下的框架。一般来说，该框架可分为数据采集、数据预处理、本体构建、类型推理、知识提取、存储和显示六个步骤。

在数据采集步骤中，我们构建了由百度百科中的人物实体和相应的网页组成的人物数据集。在数据预处理步骤中，我们对数据进行了初步的标准化和纠错，并通开放信息抽取预提取了一些三元组。在本体构建步骤中，我们利用维基百科确定了本体的类层次结构和属性。在类型推理步骤中，我们为每个实体分配一个类型。在信息提取步骤中，我们从自由文本和表格中提取关系和属性三元组。在存储和显示步骤中，我们将结果存储在neo4j图数据库中。

数据预处理部分我们借助开放信息抽取系统。首先，该系统从原始文本中提取三元组。它使用spaCy对输入的原始数据进行依赖项解析，并将句子中的主题、谓词和对象提取为三元组。其次，系统选择一些三元组，并推荐给用户进行标签。采用知识表示学习方法TransE对三元组进行选择评分。最后，它采用连续整体关系联合学习模型来学习上一步的结果。这些不依照本体、预先抽取的三元组为我们构建本体和补充知识图谱都提供了很好的依据。

而为了保证数据质量和节约成本，我们半自动地构建了本体。下图说明了本体构建的过程，它包括决定类型层次、决定属性、决定属性类型、本体融合。在本体融合的过程中，我们参考了Cnschema.org。

在信息提取步骤中，我们自动从半结构化和非结构化数据中提取实体、关系和属性等结构化信息。关键技术包括实体提取、关系提取和属性提取。除了传统的HTML提取和正则模板方法。且我们设计方法单独处理了百度百科页面中的表格数据，将其转换为结构化的RDF三元组。我们往往将基于模型的方法和基于模板的方法的结果结合起来，形成最终的结果。在大多数任务中，正则表达式模板的效率高于模型，模型通常起着互补作用。