论文浅尝 - ESWC2020 | YAGO 4: A Reason-able Knowledge Base

2020 年 6 月 10 日 开放知识图谱

论文笔记整理:叶群,浙江大学计算机学院,知识图谱、NLP方向。



会议:ESWC 2020

链接:https://suchanek.name/work/publications/eswc-2020-yago.pdf


Introduction

YAGO是世界上最大的链接数据库之一,由德国马普研究所发布。在本篇论文中,作者发布了最新版本的YAGO 4,包含约20亿三元组和6400万实体,融合了schema.org规范的分类体系和Wikidata丰富的实例数据。

Wikidata被认为是世界上最大的知识库之一,包括了超过7000万实体。与此同时,Wikidata社区对自己的定位是信息的集合,而不是我们传统意义上的“知识”。Wikidata没有严格的语义约束,且存在一些不同来源的自相矛盾的描述。对于下游应用来说,Wikidata的分类体系过于复杂和令人费解;经典的推理机无法在Wikidata知识库上进行推理,因为其本身存在很多不一致性。

举个例子阐述Wikidata的分类体系存在的问题,实体“布达拉宫”是“touristattraction”的一个实例,而“tourist attraction”是“geographic object”的子类,“geographic object”是“geometric concept”的实例,而“geometric concept”是“mathematical concepts”的子类。所以当你在Wikidata搜索“mathematical concepts”,返回的结果有张量,多边形, … ,以及布达拉宫。

在YAGO 4中,作者采用schema.org简单且清晰的分类体系来取代Wikidata复杂且费解的分类体系。因此,YAGO 4是一个逻辑一致的知识库,可以进行基于OWL的推理。


Design

YAGO 4的建立是基于5个主要的设计思路,在这里依次阐述。

1.Concise Taxonomy

Wikidata拥有一个非常庞大的分类体系,其类别层级结构过深且混乱。同时,分类体系存在不稳定性,任何贡献者都可以在两个类别之间添加或删除“subclassOf”关系,即一次编辑就可能导致上百万个实体分类结果不同。另一方面,schema.org的分类体系稳定,维护良好,由W3C Schema.org Community Group维护。但是,schema.org的分类体系中缺少一些细粒度的类别和生物化学相关的类别。为了解决这个问题,作者手工融入了Bioschemas,一个在生命科学领域的分类体系。关于细粒度类别缺失的问题,对于top-level的类别,作者选取schema.org的类别;对于leaf-level的类别(即细粒度的类别),选取Wikidata中的类别。对于Wikidata中实例数量小于10的类别,部分类别的子类以及不符约束的类别,进行丢弃。原始的Wikidata中有240万个类别,经过清洗保留了10k个类别。

2.Legible Entities and Relations

YAGO 4以RDF格式存储。与Wikidata不同,采用了可读性更高的方式来进行URI的命名。若实体有相应的维基百科页面,以维基百科页面标题作为URI。若无维基百科页面,以该实体的英文标签和Wikidata标识符作为URI。若无英文标签,即以Wikidata标识符作为URI。

3.Well-typed Values

YAGO 4对于literal也进行了处理,使之更为规范化。比如,对于日期值,转换成xsd:dateTime, xsd:date, xsd:gYearMonth或者xsd:gYear

4.Semantic Constraints

YAGO 4采取了一系列的语义限制,使得可以在知识库上进行逻辑推理。语义限制利用结构性约束语言(SHACL)和OWL进行建模。语义限制主要包括以下5类:Disjointness:类别之间存在互斥性;Domainand Range:每一个关系都有相应的定义域和值域;Functional Constraints:对于一个特定的关系和subject,只能有一个object;Cardinality Constraints,即限制object的最大数量。

5.Annotations for Temporal Scope

YAGO 4 对于其中的三元组添加了时间信息,通过添加schema:startDateschema:endDate进行限制。


Knowledge Base

      作者设计了一个系统,从Wikidatadump和语义限制自动构建YAGO 4,采用Rust语言编写。YAGO 4 3 种版本:

1)Full:采用了Wikidata中所有数据;

2)Wikipedia:包括Wikidata中所有存在维基百科页面的实例;

3)EnglishWikipedia:包括Wikidata中所有存在英文维基百科页面的实例。统计情况如下表所示:

YAGO的网站:http://yago-knowledge.org/

YAGO 4的源代码:https://github.com/yago-naga/yago4

YAGO 4SPARQL Endpointhttp://yago-knowledge.org/sparql/query

YAGO 4的Browser:YAGO 4在其网站的首页提供了图像化的浏览界面,其界面如下图所示

YAGO 4的应用:YAGO之前已经成功地应用在了多个项目中,包括问答,实体识别,语义分析等。YAGO 4知识库可以进行逻辑推理,这将为很多新的应用提供可能。作者在YAGO 4上尝试了HermiT推理机,证明了其逻辑一致性。


Conclusion

本文阐述了YAGO的最新版本YAGO 4的特点和建立过程。YAGO 4的优势在于结合了Wikidata海量的知识和schema.org规范化的分类体系,且在其上可以进行逻辑推理。

 


 

OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
1

相关内容

YAGO是由德国马普研究所研制的链接数据库。YAGO主要集成了Wikipedia、WordNet和GeoNames三个来源的数据。YAGO将WordNet的词汇定义与Wikipedia的分类体系进行了融合集成,使得YAGO具有更加丰富的实体分类体系。YAGO还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。目前,YAGO包含1.2亿条三元组知识。YAGO是IBM Watson的后端知识库之一。
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
82+阅读 · 2020年5月2日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
132+阅读 · 2020年2月13日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
168+阅读 · 2020年2月13日
论文浅尝 | 可建模语义分层的知识图谱补全方法
开放知识图谱
30+阅读 · 2020年3月8日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
论文浅尝 | 知识图谱三元组置信度的度量
开放知识图谱
23+阅读 · 2019年5月16日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
论文浅尝 | 基于知识库的自然语言理解 02#
开放知识图谱
8+阅读 · 2019年2月24日
论文浅尝 | 区分概念和实例的知识图谱嵌入方法
开放知识图谱
17+阅读 · 2019年1月19日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
论文浅尝 | Open world Knowledge Graph Completion
开放知识图谱
19+阅读 · 2018年1月30日
论文浅尝 | Leveraging Knowledge Bases in LSTMs
开放知识图谱
6+阅读 · 2017年12月8日
Arxiv
99+阅读 · 2020年3月4日
Arxiv
12+阅读 · 2019年2月26日
VIP会员
相关资讯
论文浅尝 | 可建模语义分层的知识图谱补全方法
开放知识图谱
30+阅读 · 2020年3月8日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
论文浅尝 | 知识图谱三元组置信度的度量
开放知识图谱
23+阅读 · 2019年5月16日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
论文浅尝 | 基于知识库的自然语言理解 02#
开放知识图谱
8+阅读 · 2019年2月24日
论文浅尝 | 区分概念和实例的知识图谱嵌入方法
开放知识图谱
17+阅读 · 2019年1月19日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
论文浅尝 | Open world Knowledge Graph Completion
开放知识图谱
19+阅读 · 2018年1月30日
论文浅尝 | Leveraging Knowledge Bases in LSTMs
开放知识图谱
6+阅读 · 2017年12月8日
Top
微信扫码咨询专知VIP会员