摘要: 知识图谱(KG)是一种用图模型来描述知识和建模事物之间关联关系的技术. 知识图谱嵌入(KGE)作为一种被广泛采用的知识表示方法, 其主要思想是将知识图谱中的实体和关系嵌入到连续的向量空间中, 用来简化操作, 同时保留KG的固有结构. 可以使得多种下游任务受益, 例如KG补全和关系提取等. 首先对现有的知识图谱嵌入技术进行全面回顾, 不仅包括使用KG中观察到的事实进行嵌入的技术, 还包括添加时间维度的动态KG嵌入方法, 以及融合多源信息的KG嵌入技术. 对相关模型从实体嵌入、关系嵌入、评分函数等方面进行分析、对比与总结. 然后简要介绍KG嵌入技术在下游任务中的典型应用, 包括问答系统、推荐系统和关系提取等. 最后阐述知识图谱嵌入面临的挑战, 对未来的研究方向进行展望.
地址: https://www.jos.org.cn/jos/article/abstract/6429
0 引言
知识图谱(knowledge graph, KG)作为人工智能的一个分支, 引起了学术界和工业界的广泛关注, 其构建与应用也得到了迅速发展. 例如Freebase[1], DBpedia[2], YAGO[3], NELL[4], Wikidata[5]等知识图谱已经被成功创建并应用于许多现实世界应用, 从语义分析[6, 7]、命名实体消歧[8, 9], 到信息提取[10, 11]和问答系统[12, 13]等. 知识图谱是以现实世界的实体为节点, 实体之间的关系为边的有向图. 在这个图中, 每个有向边连同其头实体与尾实体构成了一个三元组, 即(头实体, 关系, 尾实体), 表示头实体与尾实体通过关系进行连接. 尽管知识图谱在表示结构化数据方面非常有效, 但这种三元组的基本符号性质使KG难以操作[14].
为了解决这个问题, 近年来提出了一个新的研究方向, 称为知识图谱嵌入(knowledge graph embedding, KGE)或知识表示学习(knowledge representation learning, KRL), 旨在将KG的组成部分(包括实体和关系)嵌入到连续的向量空间中, 以在简化操作的同时保留KG的固有结构. 与传统的表示方法相比, KGE为KG中的实体和关系提供了更加密集的表示, 降低了其应用中的计算复杂度. 此外, KGE可以通过度量实体和关系低维嵌入的相似性来显式地捕获实体和关系之间的相似性.尽管研究者已提出多种模型来学习KG中的实体和关系表示, 但是目前大多数可用的技术仍然仅根据知识图谱中观察到的事实来执行嵌入任务. 具体地说, 给定一个KG, 首先在低维向量空间中表示实体和关系, 并为每个三元组定义一个评分函数以衡量其在该空间中的合理性. 然后通过最大化观察到的三元组的总合理性来学习实体和关系的嵌入. 这些学习的嵌入还可以进一步用于实现各种任务, 例如KG补全[15, 16], 关系提取[10, 17], 实体分类[18, 19], 实体解析[18, 20]等. 由于在整个过程中仅要求学习的嵌入在每个单独的事实中兼容, 因此对下游任务可能没有足够的预测性[21, 22]. 近年来, 越来越多的研究者开始进一步考虑利用其他类型的信息, 例如实体类型[23, 24], 文本描述[25-28], 关系路径[29-31], 甚至逻辑规则[32, 33]来学习更多的预测嵌入.
本文第1节介绍相关工作调查与基本符号定义; 第2节对仅使用KG中观察到的事实进行嵌入的技术进行全面回顾, 具体介绍基于距离的模型, 语义匹配模型以及最新的KGE技术; 第3节主要讨论了融合时间信息的动态知识图谱嵌入技术, 详细介绍t-TransE、Know-Evolve、HyTE、TDG2E等代表性的动态KGE方法; 第4节归纳了除KG中观察到的事实以外的结合附加信息的KGE技术, 例如实体类别、文本描述、关系路径等. 第5节介绍KGE技术在下游任务中的典型应用. 第6节对KGE技术面临的挑战与未来研究方向进行讨论. 最后, 第7节对全文工作进行总结.
1 相关调查与符号定义
先前有关知识图谱的调查论文主要集中在统计关系学习(statistical relational learning)[34], knowledge graph refinement[35], 中文知识图谱构建(Chinese knowledge graph construction)[36], KGE[14]或KRL[37]. Liu等人[37]在2016年详细介绍了知识表示学习(KRL)的基本概念和主要方法, 对知识表示学习面临的主要挑战、已有解决方案以及未来研究方向进行了全面总结, 为后续的调查和研究奠定了坚实的基础. 近年来, Lin等人[37]以线性方式提出KRL, 着重于进行定量分析. Wang等人[14]根据评分函数对KRL模型进行分类, 侧重于KRL中使用的信息类型.
我们的调查研究以Wang等人[14]的调查为基础. 与之不同的是, 本文对基于距离的模型与语义匹配模型进行了全新角度的分类, 对主流KGE技术进行了阐述, 同时介绍了动态知识图谱嵌入方法的最新进展, 并分析了相关代表模型. 此外, 本文讨论了结合事实以外的其他信息的嵌入技术, 以及KGE技术的典型应用. 最后, 总结了KGE技术面临的挑战, 并对其未来方向进行展望.
2. 使用事实进行知识图谱嵌入
本节对仅使用事实进行知识图谱嵌入的方法采用评分函数进行划分. 评分函数用于衡量事实的合理性, 在基于能量的学习框架中也被称为能量函数. 典型类型的评分函数分为两种: 基于距离的评分函数(如图1(a))与基于相似性的评分函数(如图1(b)).
基于距离的模型
基于距离的模型使用基于距离的评分函数, 即通过计算实体之间的距离来衡量事实的合理性, 在这种情况下, 翻译原理 h+r≈th+r≈t 被广泛使用. 也就是说, 基于距离的模型通常由关系执行翻译后, 根据两个实体之间的距离来度量一个事实的合理性. 本小节将基于距离的模型进一步细分为基本距离模型, 翻译模型和复杂关系建模. 下图基于距离的模型进行了全面总结.
语义匹配模型
语义匹配模型利用基于相似性的评分函数, 即通过语义匹配来衡量事实的合理性. 语义匹配通常采用乘法公式 (h⊤Mr≈t⊤)(h⊤Mr≈t⊤) 来变换表示空间中的头实体, 使其与尾实体相近. 本节根据实体和关系编码的不同模型结构来介绍代表性的语义匹配模型.
最新的知识图谱嵌入模型 大多数翻译模型和双线性模型是2016年之前提出的方法, 而最近几年研究KGE的方法众多. 本小节简要介绍其中的主流方法, 具体划分为卷积神经网络模型, 旋转模型, 双曲几何模型和其他模型.
3 动态知识图谱嵌入
当前KGE的研究主要集中于静态知识图谱, 其中事实不会随时间发生变化, 例如: TransE, TransH, TransR, RESCAL等. 但是, 在实际应用中, 知识图谱通常是动态的, 例如Twitter中的社交知识图, DBLP中的引文知识图等, 其中事实随时间演变, 仅在特定时间段内有效. 以往的静态KGE方法完全忽略了时间信息, 这使得静态KGE方法无法在这些实际场景中工作. 因此, 有必要设计一种用于动态知识图谱嵌入的方法. 本节介绍了典型的动态知识图谱嵌入方法, 其中分析了t-TransE, Know-Evolve, HyTE, TDG2E等相关模型, 表6将TDG2E模型与其他动态KGE方法进行对比, 直观地展示了TDG2E方法的优越性. 然而, 从大量文献中可以得出结论: 现有的大多数知识图谱嵌入方法仍然关注于静态知识图谱, 忽略了知识图谱中时间范围信息的可用性与重要性. 实际上, 在表示学习过程中合并时间信息可能会产生更好的KG嵌入, 时间感知的知识图谱嵌入研究仍然是一个有待于进一步探索的领域.
4. 融合多源信息的知识图谱嵌入
多源信息提供了知识图谱中三元组事实以外的信息, 能够帮助构建更加精准的知识表示, 仅使用事实进行知识图谱嵌入的方法忽略了蕴含在多源信息中的丰富知识, 例如: 实体类别信息、文本描述信息、关系路径等. 充分利用这些多源信息对于降低实体与关系之间的模糊程度, 进而提高推理预测的准确度至关重要.
5 知识图谱嵌入的应用
近年来, 知识驱动的应用在信息检索和问答等领域取得了巨大成功, 这些应用有望帮助准确深入地了解用户需求, 并给出适当响应. 知识图谱嵌入方法的核心思想是将每个实体、关系表示为一个低维向量, 而学习到的实体、关系嵌入可以受益于多种下游任务. 在本节中, 我们将介绍KGE的典型应用.
基于知识图谱嵌入的问答 随着大规模知识图谱的兴起, 基于知识图谱的问答(QA)成为重要的研究方向, 引起了人们的广泛关注. 现实世界的领域中通常包含数百万到数十亿个事实, 其庞大的数据量和复杂的数据结构使得用户很难访问其中有价值的知识. 为了缓解这个问题, 提出了基于知识图谱的问答(QA-KG). QA-KG旨在利用知识图谱中的事实来回答自然语言问题. 可以帮助普通用户在不知道KG数据结构的情况下, 高效地访问KG中对自己有价值的知识. 然而, 由于涉及到语义分析[112]和实体链接[113, 114]等多个具有挑战性的子问题, QA-KG的问题还远未得到解决. 近年来, 随着KGE在不同的实际应用中表现出的有效性, 人们开始探索其在解决QA-KG问题中的一些潜在作用.
**推荐系统 **在过去的几年中, 利用知识图谱的推荐系统已被证明与最先进的协作过滤系统具有竞争力, 能有效地解决新项目和数据稀疏性等问题[124-128]. 最近, KGE的流行促进了利用KGE捕获实体语义进行推荐这一研究热点, 使用KGE已被证明对推荐系统有效.
**关系提取 **关系提取(relation extraction, RE)是信息提取中的一项重要任务, 旨在根据两个给定实体的上下文来提取它们之间的关系. 由于RE具有提取文本信息的能力, 并使许多自然语言处理应用受益(例如: 信息检索, 对话生成, 问答等), 因此受到很多研究者的青睐.
6. 挑战与展望
目前, KGE作为处理大型知识图谱的一种方便有效的工具, 被广泛探索并应用于多种知识驱动型任务, 极大地提高了任务的性能, 同时也存在许多可能的有待探索的领域. 在本小节中, 我们将讨论KGE面临的挑战及其未来研究方向. 面临的挑战 探索KG的内部和外部信息知识应用的复杂性
未来方向
统一框架 * 可解释性 * 可扩展性 * 自动构建
**7. 总 结 **知识图谱作为一种语义网络拥有极强的表达能力和建模灵活性, 可以对现实世界中的实体、概念、属性以及它们之间的关系进行建模. 随着最近出现的知识表示学习、知识获取方法和各种知识图谱应用, 知识图谱引起了越来越多的研究关注. 知识图谱嵌入旨在将实体和关系嵌入到连续向量空间中, 在各种面向实体的任务中得到了重要应用. 本文围绕知识图谱嵌入技术的研究现状, 通过回顾仅使用事实进行知识图谱嵌入的方法、添加时间维度的动态 KGE方法以及融合多源信息的 KGE技术介绍了现有的知识图谱嵌入技术. 并简要讨论了KGE技术在下游任务中的实际应用. 最后总结了知识图谱嵌入领域所面临的挑战, 并对其未来的方向做出展望. 我们进行这项调查的目的是对当前KGE的代表性研究工作进行总结, 并且希望这一探索可以为KGE的未来研究提供帮助.