最新!知识图谱研究综述论文: 表示学习、知识获取与应用,25页pdf详述Knowledge Graphs技术趋势

2020 年 2 月 16 日 专知
最新!知识图谱研究综述论文: 表示学习、知识获取与应用,25页pdf详述Knowledge Graphs技术趋势

【导读】知识图谱一直是学术界和工业界关注的焦点。之前专知报道了AAAI2020相关接受论文。最近Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu等学者发表了关于知识图谱的最新综述论文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》,25页pdf涵盖107篇参考文献,对知识图谱进行了全面的综述,涵盖了知识图谱表示学习、知识获取与补全、时序知识图谱、知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向。我们提出对这些主题进行全视角分类和新的分类法。是关于知识图谱最近非常重要的参考文献。


论文地址:


https://www.zhuanzhi.ai/paper/00ef54883a71e52b240e26b2a6d25255
选自arXIV

作者:Shaoxiong Ji,Shirui Pan,Erik Cambria,Pekka Marttinen,Philip S. Yu

专知编译转载请联系本公众号获得授权


摘要


人类知识提供了对世界的认知理解。表征实体间结构关系的知识图谱已经成为认知和人类智能研究的一个日益流行的方向。在本次综述论文中,我们对知识图谱进行了全面的综述,涵盖了知识图谱表示学习、知识获取与补全、时序知识图谱、知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向。我们提出对这些主题进行全视角分类和新的分类法。知识图谱嵌入从表示空间、得分函数、编码模型和辅助信息四个方面进行组织。对知识获取,特别是知识图谱的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。我们进一步探讨了几个新兴的主题,包括元关系学习、常识推理和时序知识图谱。为了方便未来对知识图的研究,我们还提供了不同任务的数据集和开源库的集合。最后,我们对几个有前景的研究方向进行了深入的展望。


1. 引言


融合人类知识是人工智能的研究方向之一。知识表示与推理是受人类解决问题方式的启发,为智能系统表示知识以获得解决复杂任务的能力。近年来,知识图谱作为结构化人类知识的一种形式,受到了学术界和产业界的广泛关注知识图谱是事实的结构化表示,由实体、关系和语义描述组成。实体可以是现实世界的对象和抽象概念,关系表示实体之间的关联,实体及其关系的语义描述包含定义良好的类型和属性。属性图或性质图被广泛使用,其中节点和关系具有属性或性质。


知识图谱与知识库是同义的,只是略有不同。当考虑知识图谱的图结构时,知识图谱可以看作是一个图。当它涉及到形式语义时,它可以作为解释和推断事实的知识库。知识库实例和知识图谱如图1所示。知识可以用事实的三元组形式来表达(头实体,关系,尾实体)或者(主语,谓语,宾语)(head, relation,tail)或 (subject, predicate,object) 

例如(Albert Einstein; WinnerOf; Nobel Prize). 它也可以表示为一个有向图,其中节点是实体,边是关系。为了简化和顺应研究领域的发展趋势,本文将知识图谱和知识库这两个术语互换使用。



图1 知识库和知识图谱示例


近年来,基于知识图谱的研究主要集中在知识表示学习(KRL)和知识图谱嵌入(KGE)两个方面。具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别和关系提取。知识感知模型得益于异构信息、丰富的知识表示本体和语义以及多语言知识的集成。因此,许多现实世界的应用,如推荐系统和问题回答已经具备常识性的理解和推理能力。一些现实世界的产品,例如微软的Satori和谷歌的Knowledge Graph,已经显示出提供更高效服务的强大能力。


为了对现有的文献进行全面的综述,本文重点研究了知识表示,它为知识获取和知识感知应用提供了更加上下文化、智能化和语义化的知识表示方法。我们的主要贡献总结如下:


  • 全面性综述。我们对知识图谱的起源和现代知识图谱的关系学习技术进行了全面的综述。介绍和比较了知识图谱表示、学习和推理的主要神经网络结构。此外,我们还提供了不同领域中许多应用的完整概述。

  • 全视图分类和新的分类法。对知识图谱的研究进行了全面的分类,并提出了精细的分类方法。具体来说,在高层次上,我们从KRL、知识获取和知识感知应用三个方面对知识图谱进行了回顾。对于KRL方法,我们进一步将细粒度分类法分为四个视图,包括表示空间、评分函数、编码模型和辅助信息。在知识获取方面,将知识获取分为基于嵌入的排序、关系路径推理、逻辑规则推理和元关系学习; 实体关系获取任务分为实体识别、类型识别、消歧和对齐; 并根据神经范式对关系抽取进行了讨论。

  • 对新进展的广泛综述。知识图谱经历了快速的发展。本论文提供了广泛的新兴主题,包括基于transformer的知识编码、基于图神经网络(GNN)的知识传播、基于路径推理的强化学习和元关系学习。

  • 总结并展望未来的发展方向。这项综述对每个类别进行了总结,并强调了有前途的未来研究方向。


该综述的其余部分组织如下: 首先,知识图谱的概述,包括历史、符号、定义和分类,在第2节中给出; 然后,我们在第三节从四个范围讨论KRL; 接下来,我们将回顾第4节和第5节中知识获取和时间知识图谱的任务;下游应用介绍在第6节; 最后,讨论了未来的研究方向,并得出结论。其他信息,包括KRL模型训练和一组知识图谱数据集以及开源实现,可以在附录中找到。


2 概述


2.1 知识库简史


知识表示在逻辑和人工智能领域经历了漫长的发展历史。图形化知识表示的思想最早可以追溯到1956年Richens[127]提出的语义网概念,而符号逻辑知识可以追溯到1959年的一般问题求解者[109]。知识库首先用于基于知识的推理和问题解决系统。MYCIN[138]是最著名的基于规则的医学诊断专家系统之一,知识库约有600条规则。后来,人类知识表示的社区看到了基于框架的语言、基于规则的表示和混合表示的发展。大约在这个时期的末期,Cyc项目开始了,目的是收集人类的知识。资源描述框架(RDF)和Web本体语言(OWL)相继发布,成为语义Web的重要标准。然后,许多开放知识库或本体被发布,如WordNet、DBpedia、YAGO和Freebase。Stokman和Vries[140]在1988年的图表中提出了结构知识的现代概念。然而,自2012年谷歌搜索引擎首次提出知识图谱概念以来,知识图谱得到了极大的普及,当时提出了知识库[33]的知识融合框架来构建大规模的知识图谱。附录A说明了知识库历史的简要路线图。



图2: 知识库简史


2.2 定义和符号


大多数现有工作都是通过描述一般的语义表示或基本特征来给出定义。然而,还没有这样被广泛接受的正式定义。Paulheim[117]定义了知识图谱的四个标准。Ehrlinger和Woß[35]分析了现有的一些定义并提出定义1强调知识图谱的推理引擎。Wang等[158]在定义2中提出了多关系图的定义。根据之前的文献,我们将知识图谱定义为G={E,R,F},其中E、R和F分别是实体、关系和事实的集合。一个事实记作一个三元组A triple (h,r,t)∈F。


定义1 (Ehrlinger和Woß[35])。知识图谱获取信息并将其集成到本体中,应用推理引擎获得新知识。


定义2 (Wang et al.[158])。知识图谱是由实体和关系构成的多关系图,实体和关系分别被视为节点和不同类型的边。


表一 列出了具体的符号表示及其描述。附录B解释了几种数学运算的细节。


2.3 知识图研究的分类


本综述对知识图谱的研究,即KRL、知识获取、下游知识感知应用等方面进行了全面的文献综述,整合了许多最新的先进深度学习技术。研究的总体分类如图2所示。



图2: 知识图谱研究的分类


知识表示学习(Knowledge Representation Learning,KRL)是知识图谱的一个重要研究课题,它为许多知识获取任务和后续应用奠定了基础。我们将KRL分为表示空间、评分函数、编码模型和辅助信息四个方面,为开发KRL模型提供了清晰的工作流程。具体的内容包括:


  1. 关系和实体所表示的表示空间;

  2. 度量事实三元组似然性的评分函数

  3. 用于表示和学习关系交互的编码模型;

  4. 嵌入方法所集成的辅助信息。


表示学习包括点向空间、流形、复向量空间、高斯分布和离散空间。评分指标一般分为基于距离的评分函数和基于相似度匹配的评分函数。目前的研究集中在编码模型,包括线性/双线性模型,因式分解和神经网络。辅助信息包括文本信息、视觉信息和类型信息。


知识获取任务分为三类:关系提取和实体发现。第一个用于扩展现有的知识图谱,而其他两个用于从文本中发现新知识(即关系和实体)。KGC分为以下几类: 基于嵌入的排序、关系路径推理、基于规则的推理和元关系学习。实体发现包括识别、消歧、类型化和对齐。关系提取模型利用了注意力机制、图卷积网络、对抗性训练、强化学习、深度残差学习和迁移学习。


时序知识图谱包含了表示学习的时态信息。本研究将时间嵌入、实体动态、时序关系依赖、时序逻辑推理四个研究领域进行了分类。


知识感知应用包括自然语言理解(NLU)、问题回答、推荐系统和各种真实世界的任务,这些应用程序注入知识以改进表示学习。


2.4 相关综述论文


以往关于知识图谱的综述论文主要集中在统计相关学习[112]、知识图谱精细化[117]、中文知识图谱构建[166]、KGE[158]或KRL[87]。后两项综述与我们的工作关系更大。Lin等[87]以线性的方式提出KRL,着重于定量分析。Wang等人[158]根据评分函数对KRL进行分类,并特别关注KRL中使用的信息类型。它仅从评分度量的角度提供了当前研究的一般视角。我们的综述深入到KRL,并提供了一个完整的视图,它来自四个方面,包括表示空间、评分函数、编码模型和辅助信息。此外,本文还对知识获取和知识感知应用进行了全面的综述,讨论了基于知识图谱的推理和小样本学习等几个新兴的主题。


3 知识表示学习


KRL在文献中也被称为KGE、多关系学习和统计关系学习。本节介绍在分布式表示学习丰富的语义信息的实体和关系形成4个范围的最新进展,包括表示空间(表示实体和关系,3.1节), 得分函数(度量事实的合理性,3.2节),编码模型(模型的语义交互事实,3.3节),和辅助信息(利用外部信息,3.4节)。我们还在第3.5节中提供了一个摘要。KRL模型的训练策略在附录D中进行了回顾。


3.1 表示空间


表示学习的关键是学习低维分布式嵌入的实体和关系。现有文献主要使用实值点向空间(图2(a)),包括向量空间、矩阵空间和张量空间,其他类型的空间如复向量空间(图2(b))、高斯空间(图2(c))、流形空间(图2(d))也被利用。


图3: 不同空间的知识表示示意图


3.2 评分函数


评分函数用于度量事实的可信度,在基于能量的学习框架中也称为能量函数。能量学习的目的是学习能量函数。基于能量的学习目标学习能量函数Eθ(x)参数化θ采取x作为输入,以确保正样本分数高于负样本。本文采用评分函数的形式进行统一。评分函数有两种典型类型,即基于距离的(图3(a))和基于相似性的(图3(b))函数,用于度量事实的合理性。基于距离的评分函数通过计算实体之间的距离来衡量事实的合理度,其中使用较多的是关系为h+r≈t的翻译函数。基于语义相似度的评分方法是通过语义匹配来衡量事实的合理性,通常采用乘法公式,即hMr≈t⊤,转换头尾部附近的实体表示空间。



图4: 以TransE[10]和DistMult[185]为例的基于距离和基于相似匹配的评分函数示意图。


3.3 编码模型


本节介绍通过特定的模型体系结构(包括线性/双线性模型、因子分解模型和神经网络)对实体和关系的交互进行编码的模型。线性模型通过将头部实体投射到接近尾部实体的表示空间中,将关系表示为线性/双线性映射。因子分解的目的是将关系数据分解为低秩矩阵进行表示学习。神经网络用非线性神经激活和更复杂的网络结构来编码关系数据。几个神经模型如图5所示。



图5: 神经编码模型示意图。(a) MLP[33]和(b) CNN[110]将三元组数据输入到稠密层和卷积运算中学习语义表示,(c) GCN[132]作为知识图谱的编码器,产生实体和关系嵌入。(d) RSN[50]对实体关系序列进行编码,有区别地跳跃关系。



3.4 嵌入辅助信息


为了促进更有效的知识表示,多模态嵌入将诸如文本描述、类型约束、关系路径和视觉信息等外部信息与知识图谱本身结合起来。


3.5 总结


知识表示学习是知识图谱研究领域的一个重要课题。本节回顾了KRL的四方面,其中最近的几种方法总结在表II中,更多的方法在附录c中。总的来说,开发一个新的KRL模型是为了回答以下四个问题:1)选择哪个表示空间; 2)如何测量特定空间中三元组的合理度; 3)采用何种编码模型对关系交互进行建模; 4)是否利用辅助信息。


最常用的表示空间是基于欧几里德点的空间,它通过在向量空间中嵌入实体,并通过向量、矩阵或张量对相互作用进行建模。研究了复向量空间、高斯分布、流形空间和群等表示空间。流形空间相对于点向欧几里德空间的优点是松弛点向嵌入。高斯嵌入能够表达实体和关系的不确定性,以及多重关系语义。在复杂向量空间中嵌入可以有效地建模不同的关系连接模式,特别是对称/反对称模式。表示空间在实体语义信息的编码和关系属性的获取中起着重要的作用。在建立表示学习模型时,应仔细选择和设计合适的表示空间,以匹配编码方法的性质,平衡表达性和计算复杂度。基于距离度量的评分函数采用了翻译原则,而语义匹配评分函数采用了组合运算符。编码模型,尤其是神经网络,在实体和关系的交互建模中起着至关重要的作用。双线性模型也引起了广泛的关注,一些张量因子分解也可以看作是这一类。其他方法包括文本描述、关系/实体类型和实体图像的辅助信息。


图6 知识图谱表示学习模型全面集合


4 知识获取


知识获取的目的是从非结构化文本中构造知识图谱,补全已有的知识图,发现和识别实体和关系。良好的构造和大规模的知识图谱可以用于许多下游应用,并赋予知识感知模型常识推理的能力,从而为人工智能铺平道路。知识获取的主要任务包括关系提取、KGC和其他面向实体的获取任务,如实体识别和实体对齐。大多数方法分别制定KGC和关系提取。然而,这两个任务也可以集成到一个统一的框架中。Han等人[57]提出了一种知识图谱与文本数据融合的联合学习框架,实现了知识图谱与文本的数据融合,解决了文本的KGC和关系提取问题。与知识获取相关的任务还有三元组分类、关系分类等。在这一部分中,我们将对知识获取技术的三个方面进行全面的回顾,即知识图谱补全、实体发现技术和关系提取技术。


4.1 知识图谱补全


基于知识图谱不完备性的特点,提出了一种新的知识图谱三元组生成方法。典型的子任务包括链路预测、实体预测和关系预测。这里给出了一个面向任务的定义。给定一个不完全知识图谱 G = ( E , R , F ) , KGC 的目的推断缺失的三元组 T = { ( h , r , t ) | ( h , r , t ) ∉ F } 。


对KGC的初步研究主要集中在学习低维嵌入进行三元组预测。在本次综述中,我们将这些方法称为基于嵌入的方法。然而,它们中的大多数都没有捕捉到多步关系。因此,最近的工作转向探索多步骤的关系路径和合并逻辑规则,分别称为关系路径推理和基于规则的推理。三元组分类是KGC的一个相关任务,它评估了一个事实三元组分类的正确性,本节还将对此进行讨论。


图7: 基于嵌入的排序和关系路径推理示意图



4.2 实体的发现


本节将基于实体的知识获取分为几个细分的任务,即实体识别、实体消歧、实体类型和实体对齐。我们将它们称为实体发现,因为它们都在不同的设置下探索实体相关的知识。


图8: 实体发现任务的示意图



4.3 关系提取


关系抽取是从纯文本中抽取未知关系事实并将其加入到知识图谱中,是自动构建大规模知识图谱的关键。由于缺乏标记的关系数据,远距离监督[25](也称为弱监督或自我监督)使用启发式匹配来创建训练数据,假设包含相同实体提及的句子在关系数据库的监督下可以表达相同的关系。Mintz等人[103]利用文本特征(包括词汇和句法特征、命名实体标记和连接特征)对关系分类进行远程监控。传统的方法高度依赖于特征工程[103],最近的一种方法探索了特征之间的内在相关性[123]。深度神经网络正在改变知识图谱和文本的表示学习。本节回顾了神经关系提取(NRE)方法的最新进展,概述如图9所示。

图9: 神经关系提取概述


4.4 总结


这一部分回顾了不完全知识图谱的知识补全和纯文本的知识获取。


知识图谱补全完成了现有实体之间缺失的链接,或者推断出给定实体和关系查询的实体。基于嵌入的KGC方法通常依赖于三元组表示学习来捕获语义,并对完成的候选排序。基于嵌入的推理仍然停留在个体关系层面,由于忽略了知识图谱的符号性,缺乏可解释性,使得复杂推理能力较差。符号学与嵌入相结合的混合方法结合了基于规则的推理,克服了知识图谱的稀疏性,提高了嵌入的质量,促使有效的规则注入,并引入了可解释的规则。从知识图谱的图形性质出发,研究了路径搜索和神经路径表示学习,但它们在大规模图上遍历时存在连通性不足的问题。元关系学习的新方向是学习在低资源环境下对未知关系提取的快速适应使用。


实体发现从文本中获取面向实体的知识,将知识融合到知识图谱中。以序列对序列的方式探讨实体识别,实体类标讨论有噪声的类型标签和零样本,实体消歧和对齐学习统一嵌入的迭代对齐模型,解决有限数量的对齐种子样本问题。但是,如果新对齐的实体性能较差,则可能会面临错误积累问题。近年来,针对语言的知识越来越多,跨语言知识对齐的研究应运而生。


关系抽取在距离监督的假设下存在噪声模式,尤其是在不同领域的文本语料库中。因此,弱监督关系提取对于减轻噪声标记的影响是很重要的,例如,以句子包为输入的多实例学习,软选择超过实例的注意机制[90]以减少噪声模式,以及基于rl的方法将实例选择描述为硬决策。另一个原则是学习尽可能丰富的表示。由于深度神经网络可以解决传统特征提取方法中的误差传播问题,因此该领域以基于dnn的模型为主,如表四所示。


表四: 神经关系提取与研究进展综述



5 时序知识图


当前的知识图谱研究多集中在静态知识图上,事实不随时间变化,而对知识图谱的时间动态研究较少。然而,时间信息是非常重要的,因为结构化的知识只在一个特定的时期内存在,而事实的演变遵循一个时间序列。最近的研究开始将时间信息引入到KRL和KGC中,与之前的静态知识图相比,这被称为时序知识图。同时对时间嵌入和关系嵌入进行了研究。



6 知识图谱嵌入应用


丰富的结构化知识对人工智能应用非常有用。但是如何将这些符号化知识集成到现实世界应用的计算框架中仍然是一个挑战。本节介绍几种最新的基于dnn的知识驱动方法,以及NLU、推荐和问题回答方面的应用。附录E中介绍了其他应用,如数字健康和搜索引擎。



6.1自然语言理解


知识感知NLU将结构化的知识注入到统一的语义空间中,增强了语言表示。近年来,知识驱动的发展利用了显性事实知识和隐性语言表示,并探索了许多NLU任务。Chen等人[22]提出了两个知识图谱上的双图随机游动,即提出了一个基于槽的语义知识图谱和一个基于词的词汇知识图谱,以考虑口语理解中的槽间关系。Wang等[156]通过加权的词-概念嵌入,将基于知识概念化的短文本表示学习加以扩充。Peng等[118]整合外部知识库,构建用于社会短文本事件分类的异构信息图。


语言建模是一项基本的NLP任务,它根据给定的顺序预测前面的单词。传统的语言建模方法没有利用文本语料库中经常出现的实体来挖掘事实知识。如何将知识整合到语言表达中,越来越受到人们的关注。知识图谱语言模型(Knowledge graph language model, KGLM)[96]学习通过选择和复制实体来呈现知识。ERNIE-Tsinghua[205]通过聚合的预训练和随机掩蔽来融合信息实体。BERT-MK[62]对图上下文知识进行编码,主要关注医学语料库。ERNIE- baidu[142]引入了命名实体掩蔽和短语掩蔽来将知识整合到语言模型中,ERNIE 2.0[143]通过持续的多任务学习对其进行了进一步的改进。Petroni等[119]对语言模型的大规模训练和知识图谱的查询进行了反思,对语言模型和知识库进行了分析,发现通过预训练语言模型可以获得一定的事实知识。


6.2 问答


基于知识图谱的问答(KG-QA)利用知识图谱中的事实回答自然语言问题。基于神经网络的方法在分布式语义空间中表示问题和答案,也有一些方法对常识推理进行符号知识注入。


6.3 推荐系统


基于用户历史信息的协同过滤是推荐系统研究的热点。然而,它往往不能解决稀疏性问题和冷启动问题。将知识图谱作为外部信息进行集成,使推荐系统具有常识性推理能力。


通过注入基于知识图谱的边侧信息(如实体、关系和属性),许多人致力于基于嵌入的正则化以改进推荐。协同CKE[195]通过翻译KGE模型和堆叠的自动编码器联合训练KGEs、物品的文本信息和视觉内容。DKN[154]注意到时间敏感和主题敏感的新闻文章是由压缩的实体和常识组成的,它通过一个知识感知CNN模型将知识图谱与多通道的单词实体对齐的文本输入合并在一起。然而,DKN不能以端到端方式进行训练,因为实体嵌入需要提前学习。为了实现端到端训练,MKR[155]通过共享潜在特征和建模高阶项-实体交互,将多任务知识图谱表示和推荐关联起来。其他文献考虑知识图谱的关系路径和结构,而KPRN[160]将用户与项目之间的交互视为知识图谱中的实体-关系路径,并利用LSTM对该路径进行偏好推理,获取顺序依赖关系。PGPR[170]在基于知识图谱的用户-物品交互的基础上,实现了增强策略引导的路径推理。KGAT[159]将图注意网络应用于实体-关系和用户-物品图的协作知识图谱上,通过嵌入传播和基于注意的聚合对高阶连通性进行编码。


7 未来的发展方向


为了解决知识表示及其相关应用的挑战,人们做了很多努力。但仍存在一些难以解决的问题和有希望的未来方向。


7.1 复杂推理


知识表示和推理的数值计算需要一个连续的向量空间来捕获实体和关系的语义。虽然基于嵌入的方法对于复杂的逻辑推理有一定的局限性,但关系路径和符号逻辑的两个方向值得进一步探讨。递归关系路径编码、基于GNN的消息传递知识图谱、基于强化学习的路径查找和推理等方法是处理复杂推理的有效方法。对于逻辑规则和嵌入的组合,最近的著作[124,202]将马尔科夫逻辑网络与KGE结合起来,旨在利用逻辑规则并处理它们的不确定性。利用有效的嵌入技术实现不确定性和领域知识的概率推理是一个值得关注的研究方向。


7.2 统一框架


已有多个知识图谱表示学习模型被证明是等价的,如Hayshi和Shimbo[61]证明了在一定约束条件下,HOIE和ComplEx在链接预测的数学上是等价的。ANALOGY [91]提供了几种代表性模型的统一视图,包括DistMult、ComplEx和HolE。Wang等人[162]探索了几种双线性模型之间的联系。Chandrahas等[133]探讨了加法和乘法KRL模型的几何理解。大部分工作分别采用不同的模型对知识获取KGC和关系提取进行了阐述。Han等人[57]将两者放在同一框架下,提出了一种相互关注的知识图谱与文本信息共享的联合学习框架。对知识表示和推理的统一理解研究较少。然而,以类似于图网络[5]的统一框架的方式进行统一的研究,将是值得填补研究空白的。


7.3 可解释性


知识表示和注入的可解释性是知识获取和实际应用的关键问题。已经为可解释性作了初步的努力。ITransF[175]使用稀疏向量进行知识迁移,并用注意力可视化进行解释。CrossE[200]通过使用基于嵌入的路径搜索来生成链接预测的解释,探索了知识图谱的解释方案。然而,最近的神经模型在透明性和可解释性方面存在局限性,尽管它们取得了令人印象深刻的性能。一些方法结合了黑盒神经模型和符号推理,通过合并逻辑规则来提高互操作性。可解释性可以说服人们相信预测。因此,进一步的工作应该是提高预测知识的可解释性和可靠性。


7.4 可扩展性


可扩展性是大规模知识图谱的关键。在计算效率和模型表达性之间存在一种权衡。几种嵌入方法都是利用简化来降低计算成本,如利用循环相关运算来简化张量积[113]。然而,这些方法仍然难以扩展到数百万个实体和关系。


使用马尔可夫逻辑网络等概率逻辑推理需要大量的计算,因此很难扩展到大规模的知识图谱。最近的一个神经逻辑模型[124]中的规则是通过简单的穷举搜索生成的,这使得它在大规模的知识图谱上显得不足。ExpressGNN[202]试图使用NeuralLP[186]进行有效的规则归纳。但是,要处理复杂的深层架构和不断增长的知识图谱,还有很长的路要走。


7.5 知识聚合


全局知识的聚合是知识感知应用的核心。例如,推荐系统使用知识图谱对用户-物品交互进行建模,联合对文本进行分类,将文本和知识图谱编码到语义空间中。现有的知识聚合方法大多设计了注意机制和GNNs等神经网络结构。自然语言处理社区已经从大规模的通过Transformer和BERT模型等变体的训练中得到了发展,而最近的一项发现[119]表明,在非结构化文本上的训练预训练语言模型实际上可以获得一定的事实知识。大规模的训练是一种直接的知识注入方式。然而,以一种有效的、可解释的方式重新思考知识聚合的方式也具有重要的意义。


7.6 自动构建和动态知识图谱


当前的知识图谱高度依赖于手工构建,这是一种劳动密集型和昂贵的工作。知识图谱在不同认知智能领域的广泛应用,要求从大规模非结构化内容中自动构建知识图谱。目前的研究主要集中在已有知识图谱监督下的半自动构建方面。面对多模态性、异构性和大规模的应用,自动构建仍然面临着巨大的挑战。


主流的研究主要集中在静态知识图谱上,在预测时间范围有效性和学习时间信息和实体动态方面也有一些工作。许多事实只在特定的时期内有效。考虑到知识图铺的时间特性,动态知识图谱可以解决传统知识表示和推理的局限性。


8 结论


知识图谱作为人类知识的集合,随着知识表示学习、知识获取方法的出现和知识感知应用的广泛,知识图谱的研究越来越受到重视。本文从四个方面进行了全面的综述: 1)知识图谱嵌入,从嵌入空间、评分指标、编码模型、外部信息嵌入、训练策略等方面进行了全方位的系统综述; 2)从嵌入学习、关系路径推理、逻辑规则推理三个角度对实体发现、关系提取、图补全的知识获取;时序知识图表示学习与完成;4) 在自然语言理解,推荐系统,问题回答和其他杂项应用上的真实世界的知识感知应用。此外,还介绍了数据集和开源库的一些有用资源,并对未来的研究方向进行了讨论。知识图谱承载着一个庞大的研究社区,并具有广泛的方法和应用。我们进行这项综述是为了总结当前有代表性的研究工作和趋势,并期望它能促进未来的研究。


参考文献:

[1] R. H. Richens, “Preprogramming for mechanical translation.” Mechanical Translation, vol. 3, no. 1, pp. 20–25, 1956.

[2] A. Newell, J. C. Shaw, and H. A. Simon, “Report on a general problem solving program,” in IFIP congress, vol. 256, 1959, p. 64.

[3] E. Shortliffe, Computer-based medical consultations: MYCIN. Elsevier, 2012, vol. 2.

[4] F. N. Stokman and P. H. de Vries, “Structuring knowledge in a graph,” in Human-Computer Interaction, 1988, pp. 186–206.

[5] X. Dong, E. Gabrilovich, G. Heitz, W. Horn, N. Lao, K. Murphy, T. Strohmann, S. Sun, and W. Zhang, “Knowledge vault: A webscale approach to probabilistic knowledge fusion,” in SIGKDD. ACM, 2014, pp. 601–610.

[6] H. Paulheim, “Knowledge graph refinement: A survey of approaches

and evaluation methods,” Semantic web, vol. 8, no. 3, pp. 489–508, 2017.

[7] L. Ehrlinger and W. W¨oß, “Towards a definition of knowledge graphs,” SEMANTiCS (Posters, Demos, SuCCESS), vol. 48, pp. 1–4, 2016.


更多方法细节请下载论文查看,专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“KG” 就可以获取知识图谱研究综述论文: 表示学习、知识获取与应用,25页pdf详述Knowledge Graphs四大方向》论文专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
73

相关内容

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

有关实体及其关系的真实世界事实的知识库是各种自然语言处理任务的有用资源。然而,由于知识库通常是不完整的,因此能够执行知识库补全或链接预测是很有用的。本文全面概述了用于知识库完成的实体和关系的嵌入模型,总结了标准基准数据集上最新的实验结果。

成为VIP会员查看完整内容
0
71

主题: Deep Learning on Knowledge Graph for Recommender System: A Survey

摘要: 最近的研究表明,知识图谱(KG)在提供有价值的外部知识以改进推荐系统(RS)方面是有效的。知识图谱能够编码连接两个对象和一个或多个相关属性的高阶关系。借助于新兴的GNN,可以从KG中提取对象特征和关系,这是成功推荐的一个重要因素。本文对基于GNN的知识感知深度推荐系统进行了综述。具体来说,我们讨论了最新的框架,重点是它们的核心组件,即图嵌入模块,以及它们如何解决实际的推荐问题,如可伸缩性、冷启动等。我们进一步总结了常用的基准数据集、评估指标以及开源代码。最后,我们对调查结果进行了总结,并提出了这一快速发展领域的潜在研究方向。

成为VIP会员查看完整内容
0
108

题目: A Survey on Knowledge Graphs: Representation, Acquisition and Applications

摘要: 人类知识提供了对世界的正确的理解。表征实体间结构关系的知识图谱已成为认知和人类智能研究的一个日益流行的研究方向。在本次综述中,我们对知识图谱进行了全面的综述,涵盖了知识图表示学习、知识获取与补全、时序知识图谱、知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向。我们建议对这些主题进行全视图分类和新的分类法。知识图谱嵌入从表示空间、评分函数、编码模型和辅助信息四个方面进行组织。对知识获取,特别是知识图谱的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。我们进一步探讨了几个新兴的主题,包括元关系学习、常识推理和时序知识图谱。为了方便未来对知识图的研究,我们还提供了一个关于不同任务的数据集和开源库的管理集合。最后,我们对几个有前景的研究方向进行了深入的展望。

成为VIP会员查看完整内容
0
71

在本文中,我们对知识图谱进行了全面的介绍,在需要开发多样化、动态、大规模数据收集的场景中,知识图谱最近引起了业界和学术界的极大关注。在大致介绍之后,我们对用于知识图谱的各种基于图的数据模型和查询语言进行了归纳和对比。我们将讨论模式、标识和上下文在知识图谱中的作用。我们解释如何使用演绎和归纳技术的组合来表示和提取知识。我们总结了知识图谱的创建、丰富、质量评估、细化和发布的方法。我们将概述著名的开放知识图谱和企业知识图谱及其应用,以及它们如何使用上述技术。最后,我们总结了未来高层次的知识图谱研究方向。

尽管“知识图谱”一词至少从1972年就开始出现在文献中了[440],但它的现代形式起源于2012年发布的谷歌知识图谱[459],随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继发布了开发知识图谱的公告。事实证明,学术界难以忽视这一概念的日益普及: 越来越多的科学文献发表关于知识图谱的主题,其中包括书籍(如[400]),以及概述定义(如[136])的论文,新技术(如[298,399,521]),以及对知识图谱具体方面的调查(如[375,519])。

所有这些发展的核心思想是使用图形来表示数据,通常通过某种方式显式地表示知识来增强这种思想[365]。结果最常用于涉及大规模集成、管理和从不同数据源提取价值的应用场景[365]。在这种情况下,与关系模型或NoSQL替代方案相比,使用基于图的知识抽象有很多好处。图为各种领域提供了简洁而直观的抽象,其中边捕获了社会数据、生物交互、书目引用和合作作者、交通网络等[15]中固有实体之间的(潜在的循环)关系。图允许维护者推迟模式的定义,允许数据(及其范围)以比关系设置中通常可能的更灵活的方式发展,特别是对于获取不完整的知识[2]。与(其他)NoSQL模型不同,专门的图形查询语言不仅支持标准的关系运算符(连接、联合、投影等),而且还支持递归查找通过任意长度路径[14]连接的实体的导航运算符。标准的知识表示形式主义——如本体论[66,228,344]和规则[242,270]——可以用来定义和推理用于标记和描述图中的节点和边的术语的语义。可伸缩的图形分析框架[314,478,529]可用于计算中心性、集群、摘要等,以获得对所描述领域的洞察。各种表示形式也被开发出来,支持直接在图上应用机器学习技术[519,527]。

总之,构建和使用知识图谱的决策为集成和从不同数据源提取价值提供了一系列技术。但是,我们还没有看到一个通用的统一总结,它描述了如何使用知识图谱,使用了哪些技术,以及它们如何与现有的数据管理主题相关。

本教程的目标是全面介绍知识图谱: 描述它们的基本数据模型以及如何查询它们;讨论与schema, identity, 和 context相关的表征;讨论演绎和归纳的方式使知识明确;介绍可用于创建和充实图形结构数据的各种技术;描述如何识别知识图谱的质量以及如何改进知识图谱;讨论发布知识图谱的标准和最佳实践;并提供在实践中发现的现有知识图谱的概述。我们的目标受众包括对知识图谱不熟悉的研究人员和实践者。因此,我们并不假设读者对知识图谱有特定的专业知识。

知识图。“知识图谱”的定义仍然存在争议[36,53,136],其中出现了一些(有时相互冲突的)定义,从具体的技术建议到更具包容性的一般性建议;我们在附录a中讨论了这些先前的定义。在这里,我们采用了一个包容性的定义,其中我们将知识图谱视为一个数据图,目的是积累和传递真实世界的知识,其节点表示感兴趣的实体,其边缘表示这些实体之间的关系。数据图(又称数据图)符合一个基于图的数据模型,它可以是一个有向边标记的图,一个属性图等(我们在第二节中讨论具体的替代方案)。这些知识可以从外部资源中积累,也可以从知识图谱本身中提取。知识可以由简单的语句组成,如“圣地亚哥是智利的首都”,也可以由量化的语句组成,如“所有的首都都是城市”。简单的语句可以作为数据图的边来积累。如果知识图谱打算积累量化的语句,那么就需要一种更有表现力的方式来表示知识——例如本体或规则。演绎的方法可以用来继承和积累进一步的知识(例如,“圣地亚哥是一个城市”)。基于简单或量化语句的额外知识也可以通过归纳方法从知识图谱中提取和积累。

知识图谱通常来自多个来源,因此,在结构和粒度方面可能非常多样化。解决这种多样性, 表示模式, 身份, 和上下文常常起着关键的作用,在一个模式定义了一个高层结构知识图谱,身份表示图中哪些节点(或外部源)引用同一个真实的实体,而上下文可能表明一个特定的设置一些单位的知识是真实的。如前所述,知识图谱需要有效的提取、充实、质量评估和细化方法才能随着时间的推移而增长和改进。

在实践中 知识图谱的目标是作为组织或社区内不断发展的共享知识基础[365]。在实践中,我们区分了两种类型的知识图谱:开放知识图谱和企业知识图谱。开放知识图谱在网上发布,使其内容对公众有好处。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵盖了许多领域,它们要么是从Wikipedia[232,291]中提取出来的,要么是由志愿者社区[51,515]建立的。开放知识图谱也在特定领域内发表过,如媒体[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科学[79]等。企业知识图谱通常是公司内部的,并应用于商业用例[365]。使用企业知识图谱的著名行业包括网络搜索(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、社交网络(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。应用包括搜索[457,459],推荐[83,205,214,365],个人代理[392],广告[214],商业分析[214],风险评估[107,495],自动化[223],以及更多。我们将在第10节中提供更多关于在实践中使用知识图谱的细节。

结构。本文件其余部分的结构如下:

  • 第2节概述了图形数据模型和可用于查询它们的语言。
  • 第3节描述了知识图谱中模式、标识和上下文的表示形式。
  • 第四节介绍了演绎式的形式主义,通过这种形式主义,知识可以被描述和推导出来。
  • 第5节描述了可以提取额外知识的归纳技术。
  • 第6节讨论了如何从外部资源中创建和丰富知识图谱。
  • 第7节列举了可用于评估知识图谱的质量维度。
  • 第8节讨论知识图谱细化的各种技术。
  • 第9节讨论发布知识图谱的原则和协议。
  • 第10节介绍了一些著名的知识图谱及其应用。
  • 第11节总结了知识图谱的研究概况和未来的研究方向。
  • 附录A提供了知识图谱的历史背景和以前的定义。
  • 附录B列举了将从论文正文中引用的正式定义。
成为VIP会员查看完整内容
0
360

【导读】知识图谱一直是学术界和工业界关注的焦点。之前专知报道了AAAI2020相关接受论文。最近Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu等学者发表了关于知识图谱的最新综述论文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》,25页pdf涵盖107篇参考文献,对知识图谱进行了全面的综述,涵盖了知识图谱表示学习、知识获取与补全、时序知识图谱、知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向。我们提出对这些主题进行全视角分类和新的分类法。是关于知识图谱最近非常重要的参考文献。

摘要

人类知识提供了对世界的认知理解。表征实体间结构关系的知识图谱已经成为认知和人类智能研究的一个日益流行的方向。在本次综述论文中,我们对知识图谱进行了全面的综述,涵盖了知识图谱表示学习、知识获取与补全、时序知识图谱、知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向。我们提出对这些主题进行全视角分类和新的分类法。知识图谱嵌入从表示空间、得分函数、编码模型和辅助信息四个方面进行组织。对知识获取,特别是知识图谱的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。我们进一步探讨了几个新兴的主题,包括元关系学习、常识推理和时序知识图谱。为了方便未来对知识图的研究,我们还提供了不同任务的数据集和开源库的集合。最后,我们对几个有前景的研究方向进行了深入的展望。

1. 引言

融合人类知识是人工智能的研究方向之一。知识表示与推理是受人类解决问题方式的启发,为智能系统表示知识以获得解决复杂任务的能力。近年来,知识图谱作为结构化人类知识的一种形式,受到了学术界和产业界的广泛关注。知识图谱是事实的结构化表示,由实体、关系和语义描述组成。实体可以是现实世界的对象和抽象概念,关系表示实体之间的关联,实体及其关系的语义描述包含定义良好的类型和属性。属性图或性质图被广泛使用,其中节点和关系具有属性或性质。

知识图谱与知识库是同义的,只是略有不同。当考虑知识图谱的图结构时,知识图谱可以看作是一个图。当它涉及到形式语义时,它可以作为解释和推断事实的知识库。知识库实例和知识图谱如图1所示。知识可以用事实的三元组形式来表达(头实体,关系,尾实体)或者(主语,谓语,宾语)(head, relation,tail)或 (subject, predicate,object)

例如(Albert Einstein; WinnerOf; Nobel Prize). 它也可以表示为一个有向图,其中节点是实体,边是关系。为了简化和顺应研究领域的发展趋势,本文将知识图谱和知识库这两个术语互换使用。

图1 知识库和知识图谱示例

近年来,基于知识图谱的研究主要集中在知识表示学习(KRL)和知识图谱嵌入(KGE)两个方面。具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别和关系提取。知识感知模型得益于异构信息、丰富的知识表示本体和语义以及多语言知识的集成。因此,许多现实世界的应用,如推荐系统和问题回答已经具备常识性的理解和推理能力。一些现实世界的产品,例如微软的Satori和谷歌的Knowledge Graph,已经显示出提供更高效服务的强大能力。

为了对现有的文献进行全面的综述,本文重点研究了知识表示,它为知识获取和知识感知应用提供了更加上下文化、智能化和语义化的知识表示方法。我们的主要贡献总结如下:

  • 全面性综述。我们对知识图谱的起源和现代知识图谱的关系学习技术进行了全面的综述。介绍和比较了知识图谱表示、学习和推理的主要神经网络结构。此外,我们还提供了不同领域中许多应用的完整概述。

  • 全视图分类和新的分类法。对知识图谱的研究进行了全面的分类,并提出了精细的分类方法。具体来说,在高层次上,我们从KRL、知识获取和知识感知应用三个方面对知识图谱进行了回顾。对于KRL方法,我们进一步将细粒度分类法分为四个视图,包括表示空间、评分函数、编码模型和辅助信息。在知识获取方面,将知识获取分为基于嵌入的排序、关系路径推理、逻辑规则推理和元关系学习; 实体关系获取任务分为实体识别、类型识别、消歧和对齐; 并根据神经范式对关系抽取进行了讨论。

  • 对新进展的广泛综述。知识图谱经历了快速的发展。本论文提供了广泛的新兴主题,包括基于transformer的知识编码、基于图神经网络(GNN)的知识传播、基于路径推理的强化学习和元关系学习。

  • 总结并展望未来的发展方向。这项综述对每个类别进行了总结,并强调了有前途的未来研究方向。

该综述的其余部分组织如下: 首先,知识图谱的概述,包括历史、符号、定义和分类,在第2节中给出; 然后,我们在第三节从四个范围讨论KRL; 接下来,我们将回顾第4节和第5节中知识获取和时间知识图谱的任务;下游应用介绍在第6节; 最后,讨论了未来的研究方向,并得出结论。其他信息,包括KRL模型训练和一组知识图谱数据集以及开源实现,可以在附录中找到。

2 概述

2.1 知识库简史

知识表示在逻辑和人工智能领域经历了漫长的发展历史。图形化知识表示的思想最早可以追溯到1956年Richens[127]提出的语义网概念,而符号逻辑知识可以追溯到1959年的一般问题求解者[109]。知识库首先用于基于知识的推理和问题解决系统。MYCIN[138]是最著名的基于规则的医学诊断专家系统之一,知识库约有600条规则。后来,人类知识表示的社区看到了基于框架的语言、基于规则的表示和混合表示的发展。大约在这个时期的末期,Cyc项目开始了,目的是收集人类的知识。资源描述框架(RDF)和Web本体语言(OWL)相继发布,成为语义Web的重要标准。然后,许多开放知识库或本体被发布,如WordNet、DBpedia、YAGO和Freebase。Stokman和Vries[140]在1988年的图表中提出了结构知识的现代概念。然而,自2012年谷歌搜索引擎首次提出知识图谱概念以来,知识图谱得到了极大的普及,当时提出了知识库[33]的知识融合框架来构建大规模的知识图谱。附录A说明了知识库历史的简要路线图。

图2: 知识库简史

2.2 定义和符号

大多数现有工作都是通过描述一般的语义表示或基本特征来给出定义。然而,还没有这样被广泛接受的正式定义。Paulheim[117]定义了知识图谱的四个标准。Ehrlinger和Woß[35]分析了现有的一些定义并提出定义1强调知识图谱的推理引擎。Wang等[158]在定义2中提出了多关系图的定义。根据之前的文献,我们将知识图谱定义为G={E,R,F},其中E、R和F分别是实体、关系和事实的集合。一个事实记作一个三元组A triple (h,r,t)∈F。

定义1 (Ehrlinger和Woß[35])。知识图谱获取信息并将其集成到本体中,应用推理引擎获得新知识。

定义2 (Wang et al.[158])。知识图谱是由实体和关系构成的多关系图,实体和关系分别被视为节点和不同类型的边。

表一 列出了具体的符号表示及其描述。附录B解释了几种数学运算的细节。

2.3 知识图研究的分类

本综述对知识图谱的研究,即KRL、知识获取、下游知识感知应用等方面进行了全面的文献综述,整合了许多最新的先进深度学习技术。研究的总体分类如图2所示。

图2: 知识图谱研究的分类

知识表示学习(Knowledge Representation Learning,KRL)是知识图谱的一个重要研究课题,它为许多知识获取任务和后续应用奠定了基础。我们将KRL分为表示空间、评分函数、编码模型和辅助信息四个方面,为开发KRL模型提供了清晰的工作流程。具体的内容包括:

  • 关系和实体所表示的表示空间;
  • 度量事实三元组似然性的评分函数
  • 用于表示和学习关系交互的编码模型;
  • 嵌入方法所集成的辅助信息。

表示学习包括点向空间、流形、复向量空间、高斯分布和离散空间。评分指标一般分为基于距离的评分函数和基于相似度匹配的评分函数。目前的研究集中在编码模型,包括线性/双线性模型,因式分解和神经网络。辅助信息包括文本信息、视觉信息和类型信息。

知识获取任务分为三类:关系提取和实体发现。第一个用于扩展现有的知识图谱,而其他两个用于从文本中发现新知识(即关系和实体)。KGC分为以下几类: 基于嵌入的排序、关系路径推理、基于规则的推理和元关系学习。实体发现包括识别、消歧、类型化和对齐。关系提取模型利用了注意力机制、图卷积网络、对抗性训练、强化学习、深度残差学习和迁移学习。

时序知识图谱包含了表示学习的时态信息。本研究将时间嵌入、实体动态、时序关系依赖、时序逻辑推理四个研究领域进行了分类。

知识感知应用包括自然语言理解(NLU)、问题回答、推荐系统和各种真实世界的任务,这些应用程序注入知识以改进表示学习。

2.4 相关综述论文

以往关于知识图谱的综述论文主要集中在统计相关学习[112]、知识图谱精细化[117]、中文知识图谱构建[166]、KGE[158]或KRL[87]。后两项综述与我们的工作关系更大。Lin等[87]以线性的方式提出KRL,着重于定量分析。Wang等人[158]根据评分函数对KRL进行分类,并特别关注KRL中使用的信息类型。它仅从评分度量的角度提供了当前研究的一般视角。我们的综述深入到KRL,并提供了一个完整的视图,它来自四个方面,包括表示空间、评分函数、编码模型和辅助信息。此外,本文还对知识获取和知识感知应用进行了全面的综述,讨论了基于知识图谱的推理和小样本学习等几个新兴的主题。

3 知识表示学习

KRL在文献中也被称为KGE、多关系学习和统计关系学习。本节介绍在分布式表示学习丰富的语义信息的实体和关系形成4个范围的最新进展,包括表示空间(表示实体和关系,3.1节), 得分函数(度量事实的合理性,3.2节),编码模型(模型的语义交互事实,3.3节),和辅助信息(利用外部信息,3.4节)。我们还在第3.5节中提供了一个摘要。KRL模型的训练策略在附录D中进行了回顾。

3.1 表示空间

表示学习的关键是学习低维分布式嵌入的实体和关系。现有文献主要使用实值点向空间(图2(a)),包括向量空间、矩阵空间和张量空间,其他类型的空间如复向量空间(图2(b))、高斯空间(图2(c))、流形空间(图2(d))也被利用。

图3: 不同空间的知识表示示意图

3.2 评分函数

评分函数用于度量事实的可信度,在基于能量的学习框架中也称为能量函数。能量学习的目的是学习能量函数。基于能量的学习目标学习能量函数Eθ(x)参数化θ采取x作为输入,以确保正样本分数高于负样本。本文采用评分函数的形式进行统一。评分函数有两种典型类型,即基于距离的(图3(a))和基于相似性的(图3(b))函数,用于度量事实的合理性。基于距离的评分函数通过计算实体之间的距离来衡量事实的合理度,其中使用较多的是关系为h+r≈t的翻译函数。基于语义相似度的评分方法是通过语义匹配来衡量事实的合理性,通常采用乘法公式,即h⊤Mr≈t⊤,转换头尾部附近的实体表示空间。

图4: 以TransE[10]和DistMult[185]为例的基于距离和基于相似匹配的评分函数示意图。

3.3 编码模型

本节介绍通过特定的模型体系结构(包括线性/双线性模型、因子分解模型和神经网络)对实体和关系的交互进行编码的模型。线性模型通过将头部实体投射到接近尾部实体的表示空间中,将关系表示为线性/双线性映射。因子分解的目的是将关系数据分解为低秩矩阵进行表示学习。神经网络用非线性神经激活和更复杂的网络结构来编码关系数据。几个神经模型如图5所示。

图5: 神经编码模型示意图。(a) MLP[33]和(b) CNN[110]将三元组数据输入到稠密层和卷积运算中学习语义表示,(c) GCN[132]作为知识图谱的编码器,产生实体和关系嵌入。(d) RSN[50]对实体关系序列进行编码,有区别地跳跃关系。

3.4 嵌入辅助信息

为了促进更有效的知识表示,多模态嵌入将诸如文本描述、类型约束、关系路径和视觉信息等外部信息与知识图谱本身结合起来。

3.5 总结

知识表示学习是知识图谱研究领域的一个重要课题。本节回顾了KRL的四方面,其中最近的几种方法总结在表II中,更多的方法在附录c中。总的来说,开发一个新的KRL模型是为了回答以下四个问题:1)选择哪个表示空间; 2)如何测量特定空间中三元组的合理度; 3)采用何种编码模型对关系交互进行建模; 4)是否利用辅助信息。

最常用的表示空间是基于欧几里德点的空间,它通过在向量空间中嵌入实体,并通过向量、矩阵或张量对相互作用进行建模。研究了复向量空间、高斯分布、流形空间和群等表示空间。流形空间相对于点向欧几里德空间的优点是松弛点向嵌入。高斯嵌入能够表达实体和关系的不确定性,以及多重关系语义。在复杂向量空间中嵌入可以有效地建模不同的关系连接模式,特别是对称/反对称模式。表示空间在实体语义信息的编码和关系属性的获取中起着重要的作用。在建立表示学习模型时,应仔细选择和设计合适的表示空间,以匹配编码方法的性质,平衡表达性和计算复杂度。基于距离度量的评分函数采用了翻译原则,而语义匹配评分函数采用了组合运算符。编码模型,尤其是神经网络,在实体和关系的交互建模中起着至关重要的作用。双线性模型也引起了广泛的关注,一些张量因子分解也可以看作是这一类。其他方法包括文本描述、关系/实体类型和实体图像的辅助信息。

图6 知识图谱表示学习模型全面集合

4 知识获取

知识获取的目的是从非结构化文本中构造知识图谱,补全已有的知识图,发现和识别实体和关系。良好的构造和大规模的知识图谱可以用于许多下游应用,并赋予知识感知模型常识推理的能力,从而为人工智能铺平道路。知识获取的主要任务包括关系提取、KGC和其他面向实体的获取任务,如实体识别和实体对齐。大多数方法分别制定KGC和关系提取。然而,这两个任务也可以集成到一个统一的框架中。Han等人[57]提出了一种知识图谱与文本数据融合的联合学习框架,实现了知识图谱与文本的数据融合,解决了文本的KGC和关系提取问题。与知识获取相关的任务还有三元组分类、关系分类等。在这一部分中,我们将对知识获取技术的三个方面进行全面的回顾,即知识图谱补全、实体发现技术和关系提取技术。

4.1 知识图谱补全

基于知识图谱不完备性的特点,提出了一种新的知识图谱三元组生成方法。典型的子任务包括链路预测、实体预测和关系预测。这里给出了一个面向任务的定义。给定一个不完全知识图谱 G = ( E , R , F ) , KGC 的目的推断缺失的三元组 T = { ( h , r , t ) | ( h , r , t ) ∉ F } 。

对KGC的初步研究主要集中在学习低维嵌入进行三元组预测。在本次综述中,我们将这些方法称为基于嵌入的方法。然而,它们中的大多数都没有捕捉到多步关系。因此,最近的工作转向探索多步骤的关系路径和合并逻辑规则,分别称为关系路径推理和基于规则的推理。三元组分类是KGC的一个相关任务,它评估了一个事实三元组分类的正确性,本节还将对此进行讨论。

图7: 基于嵌入的排序和关系路径推理示意图

4.2 实体的发现

本节将基于实体的知识获取分为几个细分的任务,即实体识别、实体消歧、实体类型和实体对齐。我们将它们称为实体发现,因为它们都在不同的设置下探索实体相关的知识。

图8: 实体发现任务的示意图

4.3 关系提取

关系抽取是从纯文本中抽取未知关系事实并将其加入到知识图谱中,是自动构建大规模知识图谱的关键。由于缺乏标记的关系数据,远距离监督25使用启发式匹配来创建训练数据,假设包含相同实体提及的句子在关系数据库的监督下可以表达相同的关系。Mintz等人[103]利用文本特征(包括词汇和句法特征、命名实体标记和连接特征)对关系分类进行远程监控。传统的方法高度依赖于特征工程[103],最近的一种方法探索了特征之间的内在相关性[123]。深度神经网络正在改变知识图谱和文本的表示学习。本节回顾了神经关系提取(NRE)方法的最新进展,概述如图9所示。

图9: 神经关系提取概述

4.4 总结

这一部分回顾了不完全知识图谱的知识补全和纯文本的知识获取。

知识图谱补全完成了现有实体之间缺失的链接,或者推断出给定实体和关系查询的实体。基于嵌入的KGC方法通常依赖于三元组表示学习来捕获语义,并对完成的候选排序。基于嵌入的推理仍然停留在个体关系层面,由于忽略了知识图谱的符号性,缺乏可解释性,使得复杂推理能力较差。符号学与嵌入相结合的混合方法结合了基于规则的推理,克服了知识图谱的稀疏性,提高了嵌入的质量,促使有效的规则注入,并引入了可解释的规则。从知识图谱的图形性质出发,研究了路径搜索和神经路径表示学习,但它们在大规模图上遍历时存在连通性不足的问题。元关系学习的新方向是学习在低资源环境下对未知关系提取的快速适应使用。

实体发现从文本中获取面向实体的知识,将知识融合到知识图谱中。以序列对序列的方式探讨实体识别,实体类标讨论有噪声的类型标签和零样本,实体消歧和对齐学习统一嵌入的迭代对齐模型,解决有限数量的对齐种子样本问题。但是,如果新对齐的实体性能较差,则可能会面临错误积累问题。近年来,针对语言的知识越来越多,跨语言知识对齐的研究应运而生。

关系抽取在距离监督的假设下存在噪声模式,尤其是在不同领域的文本语料库中。因此,弱监督关系提取对于减轻噪声标记的影响是很重要的,例如,以句子包为输入的多实例学习,软选择超过实例的注意机制[90]以减少噪声模式,以及基于rl的方法将实例选择描述为硬决策。另一个原则是学习尽可能丰富的表示。由于深度神经网络可以解决传统特征提取方法中的误差传播问题,因此该领域以基于dnn的模型为主,如表四所示。

表四: 神经关系提取与研究进展综述

5 时序知识图

当前的知识图谱研究多集中在静态知识图上,事实不随时间变化,而对知识图谱的时间动态研究较少。然而,时间信息是非常重要的,因为结构化的知识只在一个特定的时期内存在,而事实的演变遵循一个时间序列。最近的研究开始将时间信息引入到KRL和KGC中,与之前的静态知识图相比,这被称为时序知识图。同时对时间嵌入和关系嵌入进行了研究。

6 知识图谱嵌入应用

丰富的结构化知识对人工智能应用非常有用。但是如何将这些符号化知识集成到现实世界应用的计算框架中仍然是一个挑战。本节介绍几种最新的基于dnn的知识驱动方法,以及NLU、推荐和问题回答方面的应用。附录E中介绍了其他应用,如数字健康和搜索引擎。

6.1自然语言理解

知识感知NLU将结构化的知识注入到统一的语义空间中,增强了语言表示。近年来,知识驱动的发展利用了显性事实知识和隐性语言表示,并探索了许多NLU任务。Chen等人[22]提出了两个知识图谱上的双图随机游动,即提出了一个基于槽的语义知识图谱和一个基于词的词汇知识图谱,以考虑口语理解中的槽间关系。Wang等[156]通过加权的词-概念嵌入,将基于知识概念化的短文本表示学习加以扩充。Peng等[118]整合外部知识库,构建用于社会短文本事件分类的异构信息图。

语言建模是一项基本的NLP任务,它根据给定的顺序预测前面的单词。传统的语言建模方法没有利用文本语料库中经常出现的实体来挖掘事实知识。如何将知识整合到语言表达中,越来越受到人们的关注。知识图谱语言模型(Knowledge graph language model, KGLM)[96]学习通过选择和复制实体来呈现知识。ERNIE-Tsinghua[205]通过聚合的预训练和随机掩蔽来融合信息实体。BERT-MK[62]对图上下文知识进行编码,主要关注医学语料库。ERNIE- baidu[142]引入了命名实体掩蔽和短语掩蔽来将知识整合到语言模型中,ERNIE 2.0[143]通过持续的多任务学习对其进行了进一步的改进。Petroni等[119]对语言模型的大规模训练和知识图谱的查询进行了反思,对语言模型和知识库进行了分析,发现通过预训练语言模型可以获得一定的事实知识。

6.2 问答

基于知识图谱的问答(KG-QA)利用知识图谱中的事实回答自然语言问题。基于神经网络的方法在分布式语义空间中表示问题和答案,也有一些方法对常识推理进行符号知识注入。

6.3 推荐系统

基于用户历史信息的协同过滤是推荐系统研究的热点。然而,它往往不能解决稀疏性问题和冷启动问题。将知识图谱作为外部信息进行集成,使推荐系统具有常识性推理能力。

通过注入基于知识图谱的边侧信息(如实体、关系和属性),许多人致力于基于嵌入的正则化以改进推荐。协同CKE[195]通过翻译KGE模型和堆叠的自动编码器联合训练KGEs、物品的文本信息和视觉内容。DKN[154]注意到时间敏感和主题敏感的新闻文章是由压缩的实体和常识组成的,它通过一个知识感知CNN模型将知识图谱与多通道的单词实体对齐的文本输入合并在一起。然而,DKN不能以端到端方式进行训练,因为实体嵌入需要提前学习。为了实现端到端训练,MKR[155]通过共享潜在特征和建模高阶项-实体交互,将多任务知识图谱表示和推荐关联起来。其他文献考虑知识图谱的关系路径和结构,而KPRN[160]将用户与项目之间的交互视为知识图谱中的实体-关系路径,并利用LSTM对该路径进行偏好推理,获取顺序依赖关系。PGPR[170]在基于知识图谱的用户-物品交互的基础上,实现了增强策略引导的路径推理。KGAT[159]将图注意网络应用于实体-关系和用户-物品图的协作知识图谱上,通过嵌入传播和基于注意的聚合对高阶连通性进行编码。

7 未来的发展方向

为了解决知识表示及其相关应用的挑战,人们做了很多努力。但仍存在一些难以解决的问题和有希望的未来方向。

7.1 复杂推理

知识表示和推理的数值计算需要一个连续的向量空间来捕获实体和关系的语义。虽然基于嵌入的方法对于复杂的逻辑推理有一定的局限性,但关系路径和符号逻辑的两个方向值得进一步探讨。递归关系路径编码、基于GNN的消息传递知识图谱、基于强化学习的路径查找和推理等方法是处理复杂推理的有效方法。对于逻辑规则和嵌入的组合,最近的著作[124,202]将马尔科夫逻辑网络与KGE结合起来,旨在利用逻辑规则并处理它们的不确定性。利用有效的嵌入技术实现不确定性和领域知识的概率推理是一个值得关注的研究方向。

7.2 统一框架

已有多个知识图谱表示学习模型被证明是等价的,如Hayshi和Shimbo[61]证明了在一定约束条件下,HOIE和ComplEx在链接预测的数学上是等价的。ANALOGY [91]提供了几种代表性模型的统一视图,包括DistMult、ComplEx和HolE。Wang等人[162]探索了几种双线性模型之间的联系。Chandrahas等[133]探讨了加法和乘法KRL模型的几何理解。大部分工作分别采用不同的模型对知识获取KGC和关系提取进行了阐述。Han等人[57]将两者放在同一框架下,提出了一种相互关注的知识图谱与文本信息共享的联合学习框架。对知识表示和推理的统一理解研究较少。然而,以类似于图网络[5]的统一框架的方式进行统一的研究,将是值得填补研究空白的。

7.3 可解释性

知识表示和注入的可解释性是知识获取和实际应用的关键问题。已经为可解释性作了初步的努力。ITransF[175]使用稀疏向量进行知识迁移,并用注意力可视化进行解释。CrossE[200]通过使用基于嵌入的路径搜索来生成链接预测的解释,探索了知识图谱的解释方案。然而,最近的神经模型在透明性和可解释性方面存在局限性,尽管它们取得了令人印象深刻的性能。一些方法结合了黑盒神经模型和符号推理,通过合并逻辑规则来提高互操作性。可解释性可以说服人们相信预测。因此,进一步的工作应该是提高预测知识的可解释性和可靠性。

7.4 可扩展性

可扩展性是大规模知识图谱的关键。在计算效率和模型表达性之间存在一种权衡。几种嵌入方法都是利用简化来降低计算成本,如利用循环相关运算来简化张量积[113]。然而,这些方法仍然难以扩展到数百万个实体和关系。

使用马尔可夫逻辑网络等概率逻辑推理需要大量的计算,因此很难扩展到大规模的知识图谱。最近的一个神经逻辑模型[124]中的规则是通过简单的穷举搜索生成的,这使得它在大规模的知识图谱上显得不足。ExpressGNN[202]试图使用NeuralLP[186]进行有效的规则归纳。但是,要处理复杂的深层架构和不断增长的知识图谱,还有很长的路要走。

7.5 知识聚合

全局知识的聚合是知识感知应用的核心。例如,推荐系统使用知识图谱对用户-物品交互进行建模,联合对文本进行分类,将文本和知识图谱编码到语义空间中。现有的知识聚合方法大多设计了注意机制和GNNs等神经网络结构。自然语言处理社区已经从大规模的通过Transformer和BERT模型等变体的训练中得到了发展,而最近的一项发现[119]表明,在非结构化文本上的训练预训练语言模型实际上可以获得一定的事实知识。大规模的训练是一种直接的知识注入方式。然而,以一种有效的、可解释的方式重新思考知识聚合的方式也具有重要的意义。

7.6 自动构建和动态知识图谱

当前的知识图谱高度依赖于手工构建,这是一种劳动密集型和昂贵的工作。知识图谱在不同认知智能领域的广泛应用,要求从大规模非结构化内容中自动构建知识图谱。目前的研究主要集中在已有知识图谱监督下的半自动构建方面。面对多模态性、异构性和大规模的应用,自动构建仍然面临着巨大的挑战。

主流的研究主要集中在静态知识图谱上,在预测时间范围有效性和学习时间信息和实体动态方面也有一些工作。许多事实只在特定的时期内有效。考虑到知识图铺的时间特性,动态知识图谱可以解决传统知识表示和推理的局限性。

8 结论

知识图谱作为人类知识的集合,随着知识表示学习、知识获取方法的出现和知识感知应用的广泛,知识图谱的研究越来越受到重视。本文从四个方面进行了全面的综述: 1)知识图谱嵌入,从嵌入空间、评分指标、编码模型、外部信息嵌入、训练策略等方面进行了全方位的系统综述; 2)从嵌入学习、关系路径推理、逻辑规则推理三个角度对实体发现、关系提取、图补全的知识获取;时序知识图表示学习与完成;4) 在自然语言理解,推荐系统,问题回答和其他杂项应用上的真实世界的知识感知应用。此外,还介绍了数据集和开源库的一些有用资源,并对未来的研究方向进行了讨论。知识图谱承载着一个庞大的研究社区,并具有广泛的方法和应用。我们进行这项综述是为了总结当前有代表性的研究工作和趋势,并期望它能促进未来的研究。

成为VIP会员查看完整内容
0
160

简介: 今年AAAI 2020接收了1591篇论文,其中有140篇是与图相关的。接下来将会介绍几篇与图和知识图谱相关的几篇论文。以下为内容大纲:

  • KG-Augmented Language Models In Diherent Flavours

Hayashi等人在知识图上建立了自然语言生成(NLG)任务的潜在关系语言模型(LRLM)。就是说,模型在每个时间步上要么从词汇表中提取一个单词,要么求助于已知关系。 最终的任务是在给定主题实体的情况下生成连贯且正确的文本。 LRLM利用基础图上的KG嵌入来获取实体和关系表示,以及用于嵌入表面形式的Fasttext。 最后,要参数化流程,需要一个序列模型。作者尝试使用LSTM和Transformer-XL来评估与使用Wikidata批注的Freebase和WikiText链接的WikiFacts上的LRLM。

Liu等人提出了K-BERT,它希望每个句子(如果可能)都用来自某些KG的命名实体和相关(谓词,宾语)对进行注释。 然后,将丰富的句子树线性化为一个新的位置相似嵌入,并用可见性矩阵进行遮罩,该矩阵控制输入的哪些部分在训练过程中可以看到并得到关注。

Bouraoui等人进一步评估了BERT的关系知识,即在给定一对实体(例如,巴黎,法国)的情况下,它是否可以预测正确的关系。 作者指出,BERT在事实和常识性任务中通常是好的,而不是糟糕的非词性任务,并且在形态任务中相当出色。

  • Entity Matching in Heterogeneous KGs

不同的KG具有自己的模型来建模其实体,以前,基于本体的对齐工具仅依靠此类映射来标识相似实体。 今天,我们有GNN只需少量培训即可自动学习此类映射!

Sun等人提出了AliNet,这是一种基于端到端GNN的体系结构,能够对多跳邻域进行聚合以实现实体对齐。 由于架构异质性,由于相似的实体KG的邻域不是同构的,因此任务变得更加复杂。 为了弥补这一点,作者建议关注节点的n跳环境以及具有特定损失函数的TransE样式关系模式。

Xu等人研究了多语言KG(在这种情况下为DBpedia)中的对齐问题,其中基于GNN的方法可能陷入“多对一”的情况,并为给定的目标实体生成多个候选源实体。 作者研究了如何使他们的预测中的GNN编码输出更加确定。

  • Knowledge Graph Completion and Link Prediction

AAAI’20标记并概述了两个增长趋势:神经符号计算与临时性的KG越来越受到关注。

  • KG-based Conversational AI andQuestion Answering

AAAI’20主持了“对话状态跟踪研讨会”(DSTC8)。 该活动聚集了对话AI方面的专家,包括来自Google Assistant,Amazon Alexa和DeepPavlov的人员。在研讨会上,多个专家都提出了对话AI的相关研究方法。

成为VIP会员查看完整内容
Knowledge Graphs @ AAAI 2020 - Michael Galkin - Medium.pdf
0
100
小贴士
相关资讯
知识图谱嵌入(KGE):方法和应用的综述
AI科技评论
59+阅读 · 2019年8月26日
图数据表示学习综述论文
专知
32+阅读 · 2019年6月10日
清华大学:人工智能之知识图谱(附PPT)
人工智能学家
38+阅读 · 2019年6月9日
自然语言处理常识推理综述论文,60页pdf
专知
42+阅读 · 2019年4月4日
AI人必看!89页全网最全清华知识图谱报告
智东西
23+阅读 · 2019年2月16日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
39+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
12+阅读 · 2017年11月11日
综述 | 知识图谱发展概述
PaperWeekly
61+阅读 · 2017年11月3日
相关论文
Aidan Hogan,Eva Blomqvist,Michael Cochez,Claudia d'Amato,Gerard de Melo,Claudio Gutierrez,José Emilio Labra Gayo,Sabrina Kirrane,Sebastian Neumaier,Axel Polleres,Roberto Navigli,Axel-Cyrille Ngonga Ngomo,Sabbir M. Rashid,Anisa Rula,Lukas Schmelzeisen,Juan Sequeda,Steffen Staab,Antoine Zimmermann
79+阅读 · 2020年3月4日
Shaoxiong Ji,Shirui Pan,Erik Cambria,Pekka Marttinen,Philip S. Yu
80+阅读 · 2020年2月2日
Pasquale Minervini,Matko Bošnjak,Tim Rocktäschel,Sebastian Riedel,Edward Grefenstette
9+阅读 · 2019年12月17日
Liang Yao,Chengsheng Mao,Yuan Luo
8+阅读 · 2019年9月11日
HyperKG: Hyperbolic Knowledge Graph Embeddings for Knowledge Base Completion
Prodromos Kolyvakis,Alexandros Kalousis,Dimitris Kiritsis
5+阅读 · 2019年8月17日
Knowledge Representation Learning: A Quantitative Review
Yankai Lin,Xu Han,Ruobing Xie,Zhiyuan Liu,Maosong Sun
26+阅读 · 2018年12月28日
Ivana Balazevic,Carl Allen,Timothy M. Hospedales
8+阅读 · 2018年10月18日
Liwei Cai,William Yang Wang
6+阅读 · 2018年4月16日
Simon Gottschalk,Elena Demidova
9+阅读 · 2018年4月12日
Tommaso Soru,Stefano Ruberto,Diego Moussallem,Edgard Marx,Diego Esteves,Axel-Cyrille Ngonga Ngomo
7+阅读 · 2018年3月21日
Top