点击上方,选择星标或置顶,每天给你送干货!
阅读大概需要9分钟
跟随小博主,每天进步一丢丢
知识图谱是当下的研究热点。最近18位学者共同撰写了一篇《知识图谱》综述论文,讲述了知识图谱的创建、丰富、质量评估、细化和发布的方法,有130页pdf,547篇参考文献。
在本文中,我们对知识图谱进行了全面的介绍,在需要开发多样化、动态、大规模数据收集的场景中,知识图谱最近引起了工业界和学术界的极大关注。在大致介绍之后,我们对用于知识图谱的各种基于图的数据模型和查询语言进行了归纳和对比。我们将讨论schema, identity, 和 context 在知识图谱中的作用。我们解释如何使用演绎和归纳技术的组合来表示和提取知识。我们总结了知识图谱的创建、丰富、质量评估、细化和发布的方法。我们将概述著名的开放知识图谱和企业知识图谱及其应用,以及它们如何使用上述技术。最后,我们总结了未来高层次的知识图谱研究方向。
尽管“知识图谱”一词至少从1972年就开始出现在文献中了[440],但它的现代形式起源于2012年发布的谷歌知识图谱[459],随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继发布了开发知识图谱的公告。事实证明,学术界难以忽视这一概念的日益普及: 越来越多的科学文献发表关于知识图谱的主题,其中包括书籍(如[400]),以及概述定义(如[136])的论文,新技术(如[298,399,521]),以及对知识图谱具体方面的调查(如[375,519])。
知识图。“知识图谱”的定义仍然存在争议[36,53,136],其中出现了一些(有时相互冲突的)定义,从具体的技术建议到更具包容性的一般性建议;我们在附录a中讨论了这些先前的定义。在这里,我们采用了一个包容性的定义,其中我们将知识图谱视为一个数据图,目的是积累和传递真实世界的知识,其节点表示感兴趣的实体,其边缘表示这些实体之间的关系。数据图(又称数据图)符合一个基于图的数据模型,它可以是一个有向边标记的图,一个属性图等(我们在第二节中讨论具体的替代方案)。这些知识可以从外部资源中积累,也可以从知识图谱本身中提取。知识可以由简单的语句组成,如“圣地亚哥是智利的首都”,也可以由量化的语句组成,如“所有的首都都是城市”。简单的语句可以作为数据图的边来积累。如果知识图谱打算积累量化的语句,那么就需要一种更有表现力的方式来表示知识——例如本体或规则。演绎的方法可以用来继承和积累进一步的知识(例如,“圣地亚哥是一个城市”)。基于简单或量化语句的额外知识也可以通过归纳方法从知识图谱中提取和积累。
知识图谱通常来自多个来源,因此,在结构和粒度方面可能非常多样化。解决这种多样性, 表示模式, 身份, 和上下文常常起着关键的作用,在一个模式定义了一个高层结构知识图谱,身份表示图中哪些节点(或外部源)引用同一个真实的实体,而上下文可能表明一个特定的设置一些单位的知识是真实的。如前所述,知识图谱需要有效的提取、充实、质量评估和细化方法才能随着时间的推移而增长和改进。
在实践中 知识图谱的目标是作为组织或社区内不断发展的共享知识基础[365]。在实践中,我们区分了两种类型的知识图谱:开放知识图谱和企业知识图谱。开放知识图谱在网上发布,使其内容对公众有好处。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵盖了许多领域,它们要么是从Wikipedia[232,291]中提取出来的,要么是由志愿者社区[51,515]建立的。开放知识图谱也在特定领域内发表过,如媒体[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科学[79]等。企业知识图谱通常是公司内部的,并应用于商业用例[365]。使用企业知识图谱的著名行业包括网络搜索(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、社交网络(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。应用包括搜索[457,459],推荐[83,205,214,365],个人代理[392],广告[214],商业分析[214],风险评估[107,495],自动化[223],以及更多。我们将在第10节中提供更多关于在实践中使用知识图谱的细节。
结构。本文件其余部分的结构如下:
第2节概述了图形数据模型和可用于查询它们的语言。
第3节描述了知识图谱中模式、标识和上下文的表示形式。
第四节介绍了演绎式的形式主义,通过这种形式主义,知识可以被描述和推导出来。
第5节描述了可以提取额外知识的归纳技术。
第6节讨论了如何从外部资源中创建和丰富知识图谱。
第7节列举了可用于评估知识图谱的质量维度。
第8节讨论知识图谱细化的各种技术。
第9节讨论发布知识图谱的原则和协议。
第10节介绍了一些著名的知识图谱及其应用。
第11节总结了知识图谱的研究概况和未来的研究方向。
附录A提供了知识图谱的历史背景和以前的定义。
附录B列举了将从论文正文中引用的正式定义。