OpenKG开源系列｜首个多模态开放知识图谱OpenRichpedia (东南大学)

会员服务 ·

OpenKG开源系列｜首个多模态开放知识图谱OpenRichpedia (东南大学)

2021 年 8 月 29 日 开放知识图谱

OpenKG地址：http://openkg.cn/dataset/richpeida

GitHub地址：https://github.com/OpenKG-ORG/OpenRichpedia

Gitee地址：https://gitee.com/openkg/richpedia

官网地址：http://richpedia.cn（提供Dump）

开放许可协议：CC BY 4.0

贡献者：东南大学（漆桂林，王萌，郑秋硕，郑健雄，柏超宇，王硕）

提出背景

知识图谱技术已经被广泛用于处理结构化数据（采用本体+D2R技术）和文本数据（采用文本信息抽取技术），但是还有一类非结构化数据，即视觉数据，则相对关注度较低，而且缺乏有效的技术手段来从这些数据中提取结构化知识。最近几年，虽然有一些多模态视觉技术提出，这些技术主要还是为了提升图像分类、图像生成、图像问答的效果，不能很好地支撑多模态知识图谱的构建。视觉数据库通常是图像或视频数据的丰富来源，并提供关于知识图谱中实体的充分视觉信息。显然，如果可以在在更大范围内进行链接预测和实体对齐，进而进行实体关系抽取，可以使现有的模型在综合考虑文本和视觉特征时获得更好的性能，这也是我们研究多模态知识图谱（multi-modal knowledge graph）的意义所在。

目前，已经有很多开放知识图谱（见https://lod-cloud.net/和openkg），而且不少企业也有自己的企业知识图谱。然而，这些知识图谱很少有可视化的数据资源。

多模态知识图谱与传统知识图谱的主要区别是，传统知识图谱主要集中研究文本和数据库的实体和关系，而多模态知识图谱则在传统知识图谱的基础上，构建了多种模态（例如视觉模态）下的实体，以及多种模态实体间的多模态语义关系。例如在OpenRichpedia中，首先构建了图像模态伦敦眼图像与文本模态知识图谱实体（DBpedia实体：London eye）之间的多模态语义关系（rpo:imageof），之后还构建了图像模态实体伦敦眼与图像模态实体大本钟之间的多模态语义关系（rpo:nextTo）。

基于百科的多模态知识图谱OpenRichpedia

尽管已有一些研究工作(IMGpedia,MMKG)在构建知识图谱的过程中融合了多模态知识，但这些工作仍存在一些问题。例如在IMGPedia中关系类型稀疏，关系数量少，图像分类不清晰等，在MMKG中图像并没有作为单独的图像实体存在，而是依赖于相应的传统文本实体。这些问题限制了它们在多模态任务中的应用。为了解决上述问题，我们提出了多模态知识图谱OpenRichpedia。其中包含城市实体10,274个，景点实体214,751个，人物实体823,495个，各类实体间的关系总数为3,246,306。

1、OpenRichpedia多模态知识图谱的定义如下：

实体集合E包括文本知识图谱实体EKG和图像实体EIM，R表示一系列关系的集合，其中E和R利用统一资源标识符（IRIs）表示。L是文字的集合（例如：“伦敦”，“750px”），B表示为一系列的空白节点。Richpedia三元组t表示格式为<subject, predicate, object>，即（E∪B）×R×（E∪L∪B）。Richpedia多模态知识图谱为Richpedia三元组的集合。

2、构建多模态知识图谱的流程总体如下：

接下来逐步介绍OpenRichpedia的构建流程。

数据收集：与一般的文本知识图谱不同，OpenRichpedia的出发点是构造一个多模态知识图谱，其中包含了全面的图像实体及图像实体之间的关系。但是，如下图所示，文本知识图谱实体对应的图像资源有存在长尾分布的问题，平均每一个文本实体在Wikipedia中只有很少的视觉信息。因此，我们考虑借助外部来源来填充OpenRichpedia的图像实体。首先我们基于现有的传统文本实体，从维基百科，谷歌，必应和雅虎四大图像搜索引擎中获取相应的图像实体，每一个图像作为知识图谱中的一个实体存储于OpenRichpedia中。Wikidata已经为每个文本知识图谱实体定义了唯一的统一资源标识符，我们将这些统一资源标识符添加到OpenRichpedia作为文本知识图谱实体。在目前的版本中，我们主要收集了30,638个关于城市、景点和名人的实体。对于图像实体，我们可以直观地从Wikipedia上收集图像，然后在OpenRichpedia中创建相应的统一资源标识符。
图像处理：在数据收集完成后，需要对图像实体进行预处理和筛选。因为我们的数据来自开放资源，搜索引擎会基于数据与查询字段的相关性评分对其进行排名。以多模态知识图谱的角度而言，文本知识图谱实体所关联的图像实体需要满足高相关性和多样性的条件。如下图所示，对于中间的图像实体，右侧的图像实体因为较高的相似性从而被系统过滤掉，保留左侧相似性较低的图像实体。因为从搜索引擎中获取的图像实体难免存在重复问题，接下来通过一系列的预处理操作，使得每个图像实体都与相应的传统文本实体具有较高的相关度。其中预处理操作包括去噪操作和多样性检测，去噪操作的目的是去除不相关的图像实体，多样性检测的目的是使得图像实体具有尽可能高的多样性。
关系抽取：由于以现有的技术很难基于不同图像的像素特征直接检测出这些图像之间存在的语义关系，所以我们利用基于规则的关系抽取模板，借助Wikipedia图像描述中的超链接信息，生成图像实体间的多模态语义关系。在下图中，我们以rpo:contain和rpo:nearBy为例说明如何发现协和广场，卢克索方尖碑和航运喷泉图像实体间的语义关系。我们先在中文维基百科中协和广场词条中获取到包含卢克索方尖碑和航运喷泉的图像实体，从语义视觉关系的角度上看，协和广场包括了卢克索方尖碑和航运喷泉，卢克索方尖碑就在航运喷泉的旁边。为了发现这些关系，我们收集这些图像的文本描述，并提出三个有效的规则来抽取多模态语义关系：
①如果在描述中有一个超链接，其指向的对应Wikipedia实体的概率很高。我们利用Stanford CoreNLP检测描述中的关键字。然后，通过字符串映射算法发现预定义关系。例如，如果我们在两个实体之间的文本描述中得到单词‘left’，我们将得到‘nearBy’关系。
②如果描述中有多个超链接，我们基于语法分析器和语法树检测核心知识图谱实体（即描述的主体）。然后，我们以核心知识图谱实体作为输入，将这种情况简化为规则1。
③如果在描述中没有指向其他词条的超链接，我们使用Stanford CoreNLP来查找描述中包含的Wikipedia知识图谱实体，并将这种情况简化为规则1和规则2。因为规则3依赖于NER结果，准确率低于相应的预标注超链接信息，所以它的优先级低于前两个规则。

基于OpenRichpedia的多模态知识服务网站

OpenRichpedia网站（http://richpedia.cn/）是为OpenRichpedia开发的线上知识图谱服务平台，其依托于OpenRichpedia多模态知识数据库，基于Node.js, Flask, AllegroGraph数据库等，实现了比较全面的功能和较好的性能。网站提供了对OpenRichpedia知识数据库的介绍，查询，资源检索，使用说明以及数据下载服务，同时提供了多模态知识图谱相关的SPARQL和图像实体链接，图像关系检测等功能。下面是对其功能的说明：

Home page： 此处以卡片的形式展示了OpenRichpedia所提供的主要功能，包括查询，SPARQL，实体链接和关系抽取。

SPARQL：为了方便使用者查询OpenRichpedia，网站提供了基于AllegroGraph的SPARQL查询接口。有使用SPARQL语言可以查询知识库中的知识三元组。更详细的使用说明可以参考SPARQL页面。

Entity Linking：实体链接会根据使用者提供的文本和图片来将图片和文本中的实体链接起来。其主要涉及目标检测，文本实体识别以及知识图谱实体对齐等技术，通过引入知识图谱的背景知识来提升实体识别的效果。可以使用该页面提供的样例来查看预测的结果。

Relation Extraction：关系抽取部分会分析使用者提供的图片，检测出图片中的目标以及目标之间的关系。该部分主要应用了场景图生成的技术。可以使用该页面提供的样例来查看预测的结果。

Query： 提供了对地名和人物的直接查询相关图片功能。City&Sight部分提供了对OpenRichpedia中地理实体的相关内容展示，包括实体对应的Wikidata_id,名字,Wikidata和DBPedia链接，维基百科摘要以及地理位置信息和实体的相关图片。People部分则展示人物实体的知识，诸如richpedia_id，姓名，国籍，出生日期以及人物图片。该模块展示了OpenRichpedia知识库的部分内容，方便使用者直观的了解OpenRichpedia的内容和效果。

Tutorial：为了方便使用者使用，OpenRichpedia提供了Tutorial部分。使用者可以从中查看对应功能的使用方法。

Ontology：Ontology页面展示了OpenRichpedia知识库所基于的本体。

Download：该页面提供了OpenRichpedia多模态知识库的图片和NT文件资源，开放给研究者们使用。

多模态知识图谱的应用前景

多模态知识图谱的应用场景十分广泛，首先一个完备的多模态知识图谱可以很好地促进现有自然语言处理和计算机视觉等领域的发展，同时对于跨领域的融合研究也会有显著的帮助，多模态结构数据虽然在底层表征上是异构的，但是相同实体的不同模态数据在高层语义上是统一的，所以多种模态数据的融合有利于推进语言表示等模型的发展，对于在语义层级构建多种模态下统一的语言表示模型提出数据支持。其次多模态知识图谱技术可以服务于各种下游领域，例如多模态实体链接技术可以融合多种模态下的相同实体，可以广泛应用于新闻阅读，时事推荐，商品查询(如下图所示)等场景中，多模态知识图谱补全技术可以通过远程监督补全多模态知识图谱，完善现有的多模态知识图谱，利用动态更新技术使其更加的完备，多模态对话系统的应用就更加的广泛，现阶段电商领域中集成图像和文本的多模态对话系统的研究正在稳步发展，多模态对话系统对于电商推荐，商品问答领域的进步有着重大的推进作用。

多模态知识图谱是一个新兴领域，受益于近年来通讯技术的发展，多模态数据越来越成为人们生活中触手可及的信息，种种多模态技术也成为当下研究的热门方向。

结束语

基于OpenRichpedia开发的服务平台的功能还尚未完善，一些新的功能和对当前服务的改进会逐步更新。如果您在使用OpenRichpedia的过程中遇到什么问题，欢迎通过OpenRichpedia页面提供的联络邮箱进行交流。感谢郑秋硕在OpenRichpedia多模态知识图谱构建中做出的工作，柏超宇对OpenRichpedia中知识的进一步完善和补充，郑健雄和王硕构建和完善OpenRichpedia线上服务系统的相关工作。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。