面向链接预测的知识图谱表示学习方法综述

作为人工智能的重要基石, 知识图谱能够从互联网海量数据中抽取并表达先验知识, 极大程度解决了智能系统认知决策可解释性差的瓶颈问题, 对智能系统的构建与应用起关键作用. 随着知识图谱技术应用的不断深化, 旨在解决图谱欠完整性问题的知识图谱补全工作迫在眉睫**. 链接预测是针对知识图谱中缺失的实体与关系进行预测的任务, 是知识图谱构建与补全中不可或缺的一环. 要充分挖掘知识图谱中的隐藏关系, 利用海量的实体与关系进行计算, 就需要将符号化表示的信息转换为数值形式, 即进行知识图谱表示学习**. 基于此, 面向链接预测的知识图谱表示学习成为知识图谱领域的研究热点. 从链接预测与表示学习的基本概念出发, 系统性地介绍面向链接预测的知识图谱表示学习方法最新研究进展. 具体从知识表示形式、算法建模方式两种维度对研究进展进行详细论述. 以知识表示形式的发展历程为线索, 分别介绍二元关系、多元关系和超关系知识表示形式下链接预测任务的数学建模. 基于表示学习建模方式, 将现有方法细化为 4 类模型: 平移距离模型、张量分解模型、传统神经网络模型和图神经网络模型, 并详细描述每类模型的实现方式与解决不同关系元数链接预测任务的代表模型. 在介绍链接预测的常用的数据集与评判标准基础上, 分别对比分析二元关系、多元关系和超关系 3 类知识表示形式下, 4 类知识表示学习模型的链接预测效果, 并从模型优化、知识表示形式和问题作用域 3 个方面展望未来发展趋势. 近年来, 云计算、移动互联网、物联网等信息技术的迅猛发展, 引发了网络数据爆炸式增长. 大数据时代的到来推动了以专家知识为核心的知识工程向以数据驱动为核心的大数据知识工程的转变[1]. 知识图谱 (knowledge graph, KG) 正是这一新型知识工程的典型代表. 知识图谱是以图的形式表现客观世界中的实体及其之间关系的知识库[2] , 由实体和关系组成. 实体作为图节点, 表示真实世界中的物体或抽象的概念; 关系作为图边, 表示实体之间的联系. 作为直观的结构化知识表达方式, 知识图谱能够从海量数据源中抽取并存储丰富的知识, 并通过知识表示与推理技术将可处理的先验知识提供给智能系统, 提升系统的认知智能. 因此, 知识图谱被广泛应用于信息检索[3−5]、问答系统[6−10]和推荐系统[11−13]等众多应用领域.

目前, 较为常用的知识图谱有 FreeBase[14]、Wikidata[2]、DBpedia[15]、YAGO[16] , 以及 Google Knowledge Graph[17]等, 然而这些知识图谱都存在不同程度的信息缺失. 以 FreeBase[14]为例, 70% 的人物实体缺失出生地信息, 99% 的人物实体缺失种族信息[18,19] . 为解决知识图谱构建欠完整性问题, 实现知识图谱自动补全, 需要借助表示学习 (representation learning, RL) 与链接预测 (link prediction, LP)[20] . 由于实体和关系在知识图谱中往往以符号化的形式表示, 因此要利用目前先进的深度学习技术来发现海量实体之间的隐藏关系, 就需要将实体和关系转换为数值形式的表示[21] . 这一过程正是表示学习, 即从原始知识图谱中自动学习出每个节点和边的有效特征, 并以低维向量的形式实现对实体和关系语义的表示[22] . 链接预测作为隐关系发现的重要任务, 也称链路预测. 目前较为先进的模型大多都选择在表示学习的基础上, 通过知识图谱中已有的事实知识预测缺失的实体与关系[23] . 一方面, 知识图谱表示学习通过不同的建模方式学习实体和关系的向量表示, 从而利用数值计算更好地预测缺失链接; 另一方面, 链接预测是表示学习的直接应用, 其准确性经常被用做表示学习方法的评测指标, 因此二者有着不可分割的关系.

本文将从知识表示形式、表示学习建模方式两个维度对面向链接预测的知识图谱表示学习方法研究进展进行论述. 图 1 按照时间顺序列出了本文所综述的 3 种知识表示形式下 4 类表示学习方法的主要模型, 具体包括了从 2012–2021 年 10 年内提出的 35 种表示学习模型. 此外, 图 1 中还展示了不同模型之间的演化关联与每个模型所涉及的优化方式. 目前, 基于各种知识表示形式的表示学习方法均开展了研究, 但现有综述主要聚焦于二元关系的知识表示学习, 且对于图神经网络模型的介绍不够充分. 基于此, 本文详细整理总结了 4 种面向链接预测的表示学习方法在知识图谱关系多元化发展趋势下的演化历程及其未来研究方向. 具体地, 本文第 1 节主要介绍目前知识图谱表示学习方法的背景与相关工作. 第 2 节主要介绍链接预测任务的目标与问题的基本解决流程, 并对二元关系、多元关系和超关系下的链接预测问题进行了数学建模. 在此基础上, 第 3 节和第 4 节具体综述平移距离、张量分解、传统神经网络和图神经网络这 4 类算法在不同知识表示形式下的设计思路、代表模型及其发展过程. 第 5 节介绍链接预测实验常用的数据集和评估指标, 并基于此给出了上述模型的实验结果和对比分析. 第 6 节讨论该领域目前遇到的一些挑战与未来可能的发展方向, 最后总结全文.

面向二元关系链接预测的知识表示学习方法

** 基于平移距离的知识表示与预测**

平移距离模型在词向量 (Word2Vec)[35]的启发下, 将知识图谱中的实体和关系映射到连续的向量空间, 利用头尾实体和关系的映射向量表达原图中的语义信息和链接关系. 作为最经典的知识图谱表示学习模型, 平移距离模型的出现推动了早期知识图谱表示学习的快速发展, 同时也带动其下游任务——链接预测的共同发展。

基于张量分解的知识表示与预测

张量分解模型将整个知识图谱看作一个三维邻接矩阵 (三阶张量), 矩阵由无数更小的单位三阶张量组成, 每个单位三阶张量代表一个二元关系知识的三元组. 若该事实知识存在, 则该张量对应的元素值为 1; 若不存在, 则对应的元素值为 0. 张量分解的原理是令每个三元组对应的单位三阶张量分解为 3 个低维向量的乘积, 3 个低维向量分别对应三元组中的头尾实体和关系的表示向量, 乘积尽可能接近原单位张量值 (即正确三元组样本接近 1, 错误三元组样本接近 0). 张量分解示意图如图 6 所示.

基于神经网络的知识表示与预测

神经网络模型通常将链接预测任务转换为普通的深度学习任务, 根据输入的三元组信息, 利用神经网络学习共享参数 (如权重和偏差 ), 识别三元组之间的关联和重要模式. 进行链接预测任务时, 知识嵌入向量的表示学习通常与神经网络中的共享参数共同学习. 共享参数的加入一方面使得神经网络模型在进行知识表示学习时更有表现力, 但另一方面也带来时间复杂度高、可解释性差、难以训练以及容易过拟合等问题, 这也是目前神经网络模型面临的主要挑战. 在早期研究中, 知识图谱表示学习领域代表性的神经网络模型有 MLP[18]和 SLM[59]等. 随着神经网络的发展, 用于知识表示学习和链接预测的神经网络不再拘泥于单一的神经网络, 越来越多的网络模型逐渐被用于这一领域, 其中应用最广泛的是卷积神经网络 (convolutional neural network, CNN)[60] , 其优化方向主要在于模型对三元组信息的特征提取过程 (卷积方式). 此外, 循环神经网络 (recurrent neural network, RNN)[61]、注意力机制 (attention mechanism, AM)[62]和胶囊网络 (CapsNets)[63]等神经网络模型也被逐渐应用于该领域. 本节主要介绍最新的神经网络模型研究进展

基于图神经网络的知识表示与预测

图神经网络 (graph neural network, GNN)[71]是一种专门对图结构数据进行表示学习的神经网络模型. 由于现实生活中大量信息以图数据的形式存在, 如交通网络、社交网络、用户与产品交互信息等, 为更准确和灵活地对这类数据建模, 研究者们将具有强大建模能力的神经网络引入图结构中, 构造了图神经网络. 作为连接主义与符号主义的有机结合产物, GNN 不仅使深度学习模型能够应用在图这种非欧几里德结构上, 还为深度学习模型赋予了一定的因果推理能力[72] . 因此, 一经提出, 图神经网络受到了学术界和工业界的广泛关注, 发展迅速. 几年内, 各种图神经网络模型大量涌现, 图卷积网络 (graph convolution network, GCN)[73]、图注意力网络 (graph attention network, GAT)[74]和图自编码器 (graph autoencoder, GAE)[75]等模型被陆续提出. 利用 GNN 在学习节点表示上的优势, 将其应用于知识图谱领域可以更好地挖掘实体节点之间的深层关联, 提高表示学习准确性, 辅助完成节点分类、链接预测等下游任务, 帮助构建并补全知识图谱. GNN 利用“信息传播”的思想对图数据进行处理. 通过学习映射聚合函数 f , GNN 令图中每个节点不断聚合自身与相邻节点的特征信息, 并迭代更新自身的特征表示. 为针对面向二元关系链接预测的知识表示学习模型进行更直观的对比, 表 1 总结了上述 4 类表示学习方法中不同模型的评分函数与各类方法的优化方向及其特点. 如本文第 2.1 节所述, 基于图神经网络的模型在预测流程上不同于前 3 种模型, 图神经网络本身仅对应知识表示学习部分, 预测时仍需要借助上述 3 种模型的评分函数作为预测指标。

链接预测实验对比分析

未来研究方向

综上所述, 面向链接预测的知识图谱表示学习从提出至今, 已经取得了显著的成果. 无论是知识表示形式的发展, 还是其预测方法的演化, 核心都是尽可能从原图谱中挖掘更多关联信息, 并将这些关联信息更有效地融入预测模型中, 以提高模型的表达和预测能力. 基于此, 该领域还应在以下 3 个方面进行进一步探索研究. 模型的深入优化；知识表示形式的持续发展；问题作用域的针对性探索

**总　结 **

知识图谱表示学习是自动学习知识图谱中实体与关系有效特征的过程, 通常采取将实体和关系嵌入到低维向量空间的方式表示其语义信息. 链接预测是知识图谱补全和知识推理的关键环节, 近年来受到研究者的广泛关注. 本文围绕多元化发展的知识表示形式的链接预测任务, 对 4 类知识图谱表示学习模型的研究现状进行了总结. 从知识表示形式出发, 链接预测任务可以分为二元关系、多元关系和超关系的表示形式, 其知识表示准确性依次递增. 从表示学习建模方式出发, 可以分为平移距离模型、张量分解模型、传统神经网络模型和图神经网络模型. 在介绍链接预测的常用的数据集与评判标准基础上, 采用对比分析的方式展现面向 3 类知识表示形式下链接预测任务的 4 类知识表示学习模型预测效果与优缺点. 最后从模型优化、知识表示形式和问题作用域 3 个方面展望未来发展趋势.

成为VIP会员查看完整内容