论文:A Survey on Knowledge Graphs: Representation, Acquisition and Applications
1、论文概述
本文对知识图谱进行了全面的综述,涵盖了知识表示学习(knowledge graph representation learning)、知识获取与补全(knowledge acquisition and completion)、时序知识图(temporal knowledge graph)、知识感知的应用(knowledge-aware applications)等方面的研究课题,并总结了最近的一些突破和未来的研究方向。
本文阐述采用全视图分类和新的分类法,知识图嵌入从表示空间、得分函数、编码模型和辅助信息四个方面进行组织。对知识获取,特别是知识图的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。本文进一步探讨了几个新兴的主题,包括元关系学习、常识推理和时序知识图谱。为了方便未来对知识图谱的研究,还提供了关于不同任务的数据集和开源库的管理集合。最后,对几个有前景的研究方向进行了深入的展望。
2、知识图谱与知识库
知识图谱的形式与知识库是同义的,只是稍微略有不同。当考虑图谱的图结构时,知识图谱可以看作是一个图。当它涉及到形式语义时,它可以作为解释和推断事实的知识库。一些简单的例子可以从下图看到(图来源于原论文)。
3、知识图谱发展史
老生常谈,知识图谱经历了从Semantic Net到Semantic Web再到目前知识图谱的过程,本文也在此进行了梳理,可以直接看下面的知识图谱时间线图(图来源于原论文)。
4、知识图谱研究分类
上文提到,本文将按照新的分类视图进行阐述,总共有四大模块,各个模块下面有各自的子集,从下面的分类图中可以明显的看到各个模块的划分以及包含的相应子集,对了解目前的动态十分有益(图来源于原论文)。
知识表示学习(knowledge graph representation learning, KRL)也称之为图嵌入(knowledge graph embedding, KGE), 多关系学习(multi-relation learning), 统计关系学习(statistical relational learning),是核心也是基础,将从以下四个方面概述。
1、表示空间(representation space)
表示学习的关键问题是学习实体和关系低维分布式嵌入空间。在这里主要采用的是point-wise space、complex vector space、Gaussian space、Manifold and Group space。
point-wise space是使用最多的,以翻译模型TransE和其变种模型TransX系列为代表,遵循h(头实体) + r(关系) ≈ t(尾实体) 的原则。
complex vector space的代表模型是plEx、RotatE以及QuatE。
Gaussian space是受到高斯分布的启发,以KG2E、TransG为代表性模型。
Manifold流形是一个拓扑空间,也是为了解决point-wise space中的嵌入问题,以ManifoldE、TorusE和DihEdral为代表性模型。
几种表示空间如下图所示(图来源于原论文)。
2、评分函数(scoring function)
评分函数用于度量事实的可信性,在基于能量的学习框架中也称为能量函数。评分函数有两种典型类型,基于距离和基于相似性的函数。
基于距离的评分函数通过计头尾算实体之间的距离来衡量事实的可信性,其中使用较多的是带有h(头实体) + r(关系) ≈ t(尾实体)关系的翻译。
基于语义相似度的评分方法是通过语义匹配来衡量事实的可信性,通常采用乘法矩阵公式。
可以看下图(图来原论文)。
3、编码模型(encoding models)
编码模型主要包括线性/双线性模型(Linear/Bilinear Models)、因式分解模型(Factorization Models)和神经网络(Neural Networks),目的是对实体和关系进行编码的模型。
线性模型通过将头部实体投射到接近尾部实体的表示空间中,将关系表示为线性/双线性映射。
因子分解的目的是将关系数据分解为低秩矩阵进行表示学习。
神经网络用非线性神经激活函数和更复杂的网络结构来编码实体关系数据,包括MLP、CNN、RNN、Transformer、GNN等。几种神经模型如下图所示(图来源于原论文)。
4、辅助信息(auxiliary information)
为了促进更有效的知识表示,多模态嵌入将外部信息如文本描述、类型约束、关系路径和可视化信息与知识图谱本身结合在一起。
知识获取的目的是从非结构化文本中构造知识图谱,补全已有的知识图谱,发现识别实体和关系。在此处,将对知识获取技术的三个方面进行回顾,即知识获取技术、实体发现技术和关系提取技术。
1、知识图谱补全(KGC)
基于知识图谱不完备的问题,采用知识图谱补全为知识图谱增加新的三元组,典型的子任务包括链路预测、实体预测和关系预测。对KGC的初步研究主要集中在学习低维嵌入的方式用于三元组预测,即基于嵌入的方法(Embedding-based Models)。然而,基于嵌入的补全方法大多数都没有捕捉到多步的关系。因此,最近的工作转向探索多步的关系路径和整合逻辑规则,分别称为基于关系路径推理(Relation Path Reasoning)和基于规则的推理(Rule-based Reasoning)。除此之外,基于强化学习(RL-based Path Finding)和元关系学习(Meta Relational Learning)的方法也有研究。下面有几个图表示(图来源于原论文)。
2、实体发现
实体发现这里主要包含几个任务的细分,即实体识别、实体消歧、实体类型和实体对齐。
实体识别是NLP的基础任务,主要的模型是LSTM、CRF等,以及最近的MGNER模型。
实体类型包括粗粒度和细粒度类型,而后者使用树形结构类型类别,通常被视为多类别和多标签分类,典型的模型是PLE。
实体消歧或实体链接是将实体与知识图谱中相应的实体进行链接进而统一的任务,代表模型是DSRM、EDKate等。
上述任务涉及到从文本或单个知识图谱中发现实体,而实体对齐(EA)旨在融合异类知识图谱之间的知识。
3、关系抽取
关系抽取是从纯文本中抽取未知的关系事实并将其加入到知识图谱中,是自动构建大规模知识图谱的关键。目前来说,都在采用神经网络进行关系抽取的研究,如下图(图来源于原论文)。
当前的知识图谱研究大多集中在静态图谱上,事实不随时间的变化而发生变化,而对图谱的时序动态研究较少。然而,时间信息是非常重要的,因为结构化的知识只在一个特定的时期内,事实的演变遵循着时间序列。因此,最近的研究开始将时间信息引入到KRL和KGC中,与之前的静态知识图谱相比,称为时序知识图谱。同时对时序嵌入和时序关系嵌入进行研究。除此之外,还对实体动态和时序逻辑推理展开研究。
丰富的结构化知识对人工智能应用程序非常有用。但是如何将这些知识集成到现实世界应用程序的计算框架中仍然是一个挑战。这里主要涉及到一些下游应用,包括自然语言理解(Natural Language Understanding, NLU)、推荐系统(Recommender Systems)和问答(Question Answering)方面的应用。
为了解决知识表示及其相关应用的挑战,人们做了很多努力。但仍存在一些难以解决的问题和有希望的未来方向。
更加复杂的推理
统一框架展开研究
可解释性,神经网络老生常谈
可扩展性,对于大规模的知识图谱十分必要
知识的信息聚合
图谱的自动构建