转载公众号 | 专知
知识图谱(KG)是一种用图模型来描述知识和建模事物之间关联关系的技术. 知识图谱嵌入(KGE)作为一 种被广泛采用的知识表示方法,其主要思想是将知识图谱中的实体和关系嵌入到连续的向量空间中,用来简化操作, 同时保留 KG 的固有结构.它可以使得多种下游任务受益,例如 KG 补全和关系提取等. 本文首先对现有的知识图谱嵌入技术进行全面回顾,不仅包括使用 KG 中观察到的事实进行嵌入的技术,还包括添加时间维度的动态 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技术.对相关模型从实体嵌入、关系嵌入、评分函数等方面进行分析、对比与总结. 然后简要介绍 KG 嵌入技术在下游任务中的典型应用,包括问答系统、推荐系统和关系提取等.最后阐述知识图谱 嵌入面临的挑战,对未来的研究方向进行展望.
http://www.jos.org.cn/jos/article/abstract/6429
引言
知识图谱(Knowledge Graph,KG)作为人工智能的一个分支,引起了学术界和工业界的广泛关注,其构建与应用也得到了迅速发展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知识图谱已经被成功创建并 应用于许多现实世界应用,从语义分析[6,7]、命名实体消歧[8,9] ,到信息提取[10,11]和问答系统[12,13]等.知识图谱是以 现实世界的实体为节点,实体之间的关系为边的有向图.在这个图中,每个有向边连同其头实体与尾实体构成了 一个三元组,即(头实体,关系,尾实体),表示头实体与尾实体通过关系进行连接.尽管知识图谱在表示结构化数据 方面非常有效,但这种三元组的基本符号性质使 KG 难以操作[14] .
为了解决这个问题,近年来提出了一个新的研究方向,称为知识图谱嵌入(Knowledge Graph Embedding, KGE)或知识表示学习(Knowledge Representation Learning, KRL),旨在将 KG 的组成部分(包括实体和关系)嵌入 到连续的向量空间中,以在简化操作的同时保留 KG 的固有结构.与传统的表示方法相比,KGE 为 KG 中的实体 和关系提供了更加密集的表示,降低了其应用中的计算复杂度.此外,KGE 可以通过度量实体和关系低维嵌入的 相似性来显式地捕获实体和关系之间的相似性.
尽管研究者已提出多种模型来学习 KG 中的实体和关系表示,但是目前大多数可用的技术仍然仅根据知识 图谱中观察到的事实来执行嵌入任务.具体地说,给定一个 KG,首先在低维向量空间中表示实体和关系,并为每 个三元组定义一个评分函数以衡量其在该空间中的合理性.然后通过最大化观察到的三元组的总合理性来学 习实体和关系的嵌入.这些学习的嵌入还可以进一步用于实现各种任务,例如 KG 补全[15,16] ,关系提取[10,17] ,实体 分类[18,19] ,实体解析[18,20]等.由于在整个过程中仅要求学习的嵌入在每个单独的事实中兼容,因此对下游任务可 能没有足够的预测性[21,22] .近年来,越来越多的研究者开始进一步考虑利用其他类型的信息,例如实体类型 [23,24] ,文本描述[25-28] ,关系路径[29-31] ,甚至逻辑规则[32,33]来学习更多的预测嵌入.
本文内容结构组织如下:第 1 节介绍相关工作调查与基本符号定义;第 2 节对仅使用 KG 中观察到的事实进 行嵌入的技术进行全面回顾,具体介绍基于距离的模型,语义匹配模型以及最新的 KGE 技术;第 3 节主要讨论了 融合时间信息的动态知识图谱嵌入技术,详细介绍 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的动态 KGE 方法;第 4 节归纳了除 KG 中观察到的事实以外的结合附加信息的 KGE 技术,例如实体类别、文本描述、 关系路径等.第 5 节介绍 KGE 技术在下游任务中的典型应用.第 6 节对 KGE 技术面临的挑战与未来研究方向 进行讨论.最后,第 7 节对全文工作进行总结.
1 符号定义
知识图谱嵌入旨在将 KG 中的实体和关系嵌入到一个低维连续的语义空间中.为了便于说明,本小节定义 几种基本符号.首先,定义知识图谱为 G=(E,R,S).
2. 使用事实进行知识图谱嵌入
本节对仅使用事实进行知识图谱嵌入的方法采用评分函数进行划分.评分函数用于衡量事实的合理性,在 基于能量的学习框架中也被称为能量函数.典型类型的评分函数分为两种:基于距离的评分函数(如图 1(a))与基 于相似性的评分函数(如图 1(b)).
2.1 基于距离的模型
基于距离的模型使用基于距离的评分函数,即通过计算实体之间的距离来衡量事实的合理性,在这种情况 下,翻译原理 h+r=t, 被广泛使用.也就是说,基于距离的模型通常由关系执行翻译后,根据两个实体之间的距离 来度量一个事实的合理性.本小节将基于距离的模型进一步细分为基本距离模型,翻译模型和复杂关系建模.
基于距离的模型总结
2.2 语义匹配模型
语义匹配模型利用基于相似性的评分函数,即通过语义匹配来衡量事实的合理性.语义匹配通常采用乘法 公式来变换表示空间中的头实体,使其与尾实体相近.本节根据实体和关系编码的不同模型结构来 介绍代表性的语义匹配模型.
语义匹配模型总结
2.3 最新的知识图谱嵌入模型
大多数翻译模型和双线性模型是 2016 年之前提出的方法,而最近几年研究 KGE 的方法众多.本小节简要 介绍其中的主流方法,具体划分为卷积神经网络模型,旋转模型,双曲几何模型和其他模型.
最新的知识图谱嵌入模型总结
第 2 节主要介绍了 3 大类知识图谱嵌入方法,即:基于距离的模型,语义匹配模型与最新的 KGE 模型,并结 合已有的研究成果对其进行了分析.根据上述分析结果,表 5 从类别,方法,提出年份及优缺点四方面对这几类知 识图谱嵌入方法的部分代表模型进行对比.
当前 KGE 的研究主要集中于静态知识图谱,其中事实不会随时间发生变化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在实际应用中,知识图谱通常是动态的,例如 Twitter 中的社交知识图,DBLP 中的引文知识 图等,其中事实随时间演变,仅在特定时间段内有效.以往的静态 KGE 方法完全忽略了时间信息,这使得静态 KGE 方法无法在这些实际场景中工作.因此,有必要设计一种用于动态知识图谱嵌入的方法.
多源信息提供了知识图谱中三元组事实以外的信息,能够帮助构建更加精准的知识表示,仅使用事实进行 知识图谱嵌入的方法忽略了蕴含在多源信息中的丰富知识,例如:实体类别信息、文本描述信息、关系路径等. 充分利用这些多源信息对于降低实体与关系之间的模糊程度,进而提高推理预测的准确度至关重要.
近年来,知识驱动的应用在信息检索和问答等领域取得了巨大成功,这些应用有望帮助准确深入地了解用 户需求,并给出适当响应.知识图谱嵌入方法的核心思想是将每个实体、关系表示为一个低维向量,而学习到的 实体、关系嵌入可以受益于多种下游任务.在本节中,我们将介绍 KGE 的典型应用.
随着大规模知识图谱的兴起,基于知识图谱的问答(QA)成为重要的研究方向,引起了人们的广泛关注.现实 世界的领域中通常包含数百万到数十亿个事实,其庞大的数据量和复杂的数据结构使得用户很难访问其中有 价值的知识.为了缓解这个问题,提出了基于知识图谱的问答(QA-KG). QA-KG 旨在利用知识图谱中的事实来回答自然语言问题.可以帮助普通用户在不知道 KG 数据结构的情 况下,高效地访问 KG 中对自己有价值的知识.然而,由于涉及到语义分析[114]和实体链接[115,116]等多个具有挑战 性的子问题,QA-KG 的问题还远未得到解决.近年来,随着 KGE 在不同的实际应用中表现出的有效性,人们开始 探索其在解决 QA-KG 问题中的一些潜在作用. Bordes 等人[117]基于训练问题和问题释义学习单词,关系和实体的低维表示,以便将新问题和候选事实投影 到同一空间中进行比较.Yang 等人[118,119]利用问题和潜在事实的逻辑性质,将问题和候选答案投影到统一的低 维度空间中.还有一些基于深度学习的模型[120-124]通过将问题中的单词输入神经网络来实现这种投影.
值得注意的是,最近,Huang 等人[125]提出了一个简单有效的基于知识图谱嵌入的问答框架(KEQA),旨在解 决简单问题,即 QA-KG 中最常见的问题类型.KEQA 不是直接推断问题的头实体和谓词,而是在 KGE 空间中联 合恢复自然语言问题的头实体,关系和尾实体表示来回答问题.最后,基于知识图谱子集(FB2M、FB5M[125] )和问 答数据集 SimpleQuestions[117]进行实验,通过与七个最新提出的 QA-KG 算法进行对比,KEQA凭借在简单问题 上获得 20.3%的准确性改进获得了优于所有基线的性能. 此外,为了验证在使用不同的 KGE 算法时 KEQA 的 通用性,分别使用 TransE [15]、TransH [16]、TransR [43]执行知识图谱嵌入,实验结果表明 KGE算法显著提高了 KEQA 的性能,与 KEQA_noEmbed相比,KEQA 基于 TransE 时实现了 3.1%的改进,并且 KEQA 在使用不同的 KGE 算 法时性能相近,证明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以获得与最先进的 QA-KG 方法相 当的性能,验证了 KEQA 的健壮性。
在过去的几年中,利用知识图谱的推荐系统已被证明与最先进的协作过滤系统具有竞争力,能有效地解决 新项目和数据稀疏性等问题[126-130] .最近,KGE 的流行促进了利用 KGE 捕获实体语义进行推荐这一研究热点, 使用 KGE 已被证明对推荐系统有效. Zhang 等人提出使用 TransR[43]的协作知识图嵌入(collaborative knowledge base embedding,CKE)[131] ,以学 习结合视觉和文本嵌入的项目结构表示.深度知识感知网络(deep knowledge-aware network,DKN) [132]利用 TransD[44]学习实体嵌入,并通过将它们与词嵌入相结合来设计 CNN 框架,用于新闻推荐.但是,由于需要提前学 习实体嵌入,DKN 不能以端到端的方式进行训练.为了实现端到端的训练,MKR(multi-task feature learning approach for knowledge graph)[133]通过共享潜在特征和建模高阶项-实体交互,将多任务知识图谱表示和推荐关 联起来.Ai 等人[134]通过 TransE[15]方法学习用户和项目嵌入,并基于投影空间中的用户-项目相似度评分进行推 荐.文献[135]为优惠推荐任务提出了一个神经分解(neural factorization,NF)模型,以 KG 的形式对可用数据进行 建模,并使用 TransE 学习实体和关系的嵌入. 最近,Sha 等人提出了一种新颖的注意力知识图谱嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 进行有效推荐.该框架以交互特定的方式充分利用了 KG 的语义和拓扑,为推荐结果提供 了可解释性.此外,Ni 等人描述了一种用于 Wikipedia 的基于嵌入的实体推荐框架[137] ,该框架将 Wikipedia 组织 成一系列彼此重叠的图,从它们的拓扑结构和内容中学习互补的实体表示,并将其与轻量级的学习方法相结合, 以推荐 Wikipedia 上的相关实体.通过使用 Wikipedia 作为框架的输入,两个实体推荐数据集作为基础事实,进 行离线和在线评估,证明了所产生的嵌入和推荐在质量和用户参与度方面表现良好.
关系提取(relation extraction,RE)是信息提取中的一项重要任务,旨在根据两个给定实体的上下文来提取它 们之间的关系.由于 RE 具有提取文本信息的能力,并使许多自然语言处理应用受益(例如:信息检索,对话生成, 问答等),因此受到很多研究者的青睐. 常规的监督模型已经在关系提取任务中得到深入研究,但是,它们的性能在很大程度上依赖于训练数据的 规模和质量.为了构建大规模数据,Mintz 等人[138]提出了一种新颖的远程监督(distant supervision,DS)机制,通过 将现有知识图谱与文本对齐来自动标记训练实例.DS 使 RE 模型能够在大规模的训练语料库上工作,因此远程 监督的 RE 模型[139-141]已经成为从纯文本中提取新事实的主流方法.但是,这些方法仅在知识获取中使用纯文本 中的信息,而忽略了 KG 结构所包含的丰富信息.
受 KG 丰富的知识启发,很多研究工作在 KG 的指导下扩展了 DS 模型.Weston 等人[142]提出将 TransE 与现 有的远程监督的 RE 模型相结合以提取新的事实,并且获得了较大改进.此外,Han 等人[143]提出了一种针对 KRL和 RE 的联合表示学习框架,文献[37]证实了现有的 KRL 模型可以有效增强远程监督的 RE 模型.最近,Han 等人 [144]提出了一个通用的联合表示学习框架,用于知识图谱补全(knowledge graph completion,KGC)和从文本中提 取关系(relation extraction,RE)两个任务,该框架适用于非严格对齐的数据.此外,Lei 等人[145]提出了一种具有双 向知识提炼的神经关系提取框架,以协同使用不同的信息源,减轻了远程监督关系提取中的噪声标签问题.但 是,这些工作忽略了关系之间的丰富关联.Zhang 等人[146]提出 KG 中的关系符合三层层次关系结构(hierarchical relation structure,HRS),并扩展了现有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息学习知识表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]数据集上进行了链接预测和三元组 分类任务的实验评估,结果表明,相比于原始模型以及其他基线模型 TransE、TransH、DistMult,扩展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始终获得最佳性能,验证了模型的有效性,同时也证明了考虑关系结 构对于 KG 补全非常有效.
目前,KGE 作为处理大型知识图谱的一种方便有效的工具,被广泛探索并应用于多种知识驱动型任务,极大 地提高了任务的性能,同时也存在许多可能的有待探索的领域.在本小节中,我们将讨论 KGE 面临的挑战及其 未来研究方向.
KG 中的实体和关系具有复杂的特性和丰富的信息,而这些信息尚未得到充分考虑.本小节将讨论为增强 KGE 方法的性能而需要进一步探索的内部和外部信息.
知识类型:
不同的 KGE 方法在处理 1-1,1-N,N-1 和 N-N 关系时具有不同的性能,这表明针对不同类型的知 识或关系需要设计不同的 KGE 框架.然而,现有的 KGE 方法简单地将所有关系分为 1-1,1-N,N-1 和 N-N 关系, 不能有效地描述知识的特征.根据知识的认知和计算特性,现有知识可分为以下几种类型:(1)表示实体之间从属 关系(如 has part).(2)表示实体属性信息(如 nationality).(3)表示实体之间的相互关系(如 friend of).这些不同类型 的关系应该采用不同的方式建模.
多语言嵌入:
文献[40]观察到不同语言的向量空间之间对应概念的几何排列具有很强的相似性,并提出两个 向量空间之间的跨语言映射在技术上是可行的.多语言 KG 对于知识共享具有重要意义,并且在跨语言信息检 索,机器翻译,问答等领域发挥着重要作用.然而,现有的关于多语言 KG 嵌入的研究很少,因此多语言 KGE 的研 究是一项有待解决的有意义但又具有挑战性的工作.
多源信息学习:
随着网络技术的快速发展,如今的互联网不仅包含页面和超链接,音频、图片和视频等多源 信息也越来越多地出现在网络上.因此,如何高效地利用从文本到视频的多源信息已成为 KGE 中的一个关键且 具有挑战性的问题.现有的利用多源信息的方法尚处于初步阶段,诸如社交网络之类的其他形式的多源信息仍 然独立于知识图谱表示的构建,因此还有待进一步研究.
One-shot/Zero-shot 学习:近年来,One-shot/Zero-shot 学习在单词表示,情感分类,机器翻译等各个领域中蓬 勃发展.One-shot/Zero-shot 学习的目的是从一个只有少量实例的类或一个从未见过的类的实例中学习,在知识 图谱表示中,一个实际的问题是低频实体和关系的学习比高频实体和关系的学习更差.然而,借助实体和关系的 多语言和多模态表示,低频实体和关系的表示可以在一定程度上得到改善.此外,有必要设计新的 KGE 框架,使 其更适合于低频实体和关系的表示学习.
KG 在各种应用中发挥着重要的作用,例如 Web 搜索,知识推理和问答.但是,由于现实世界中知识应用的复 杂性,难以高效地利用 KG.在本小节中,将讨论在实际应用中使用 KG 时遇到的问题. KG 质量低:知识应用的主要挑战之一是大型 KG 本身的质量问题.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是从互联网上的大量纯文本中自动获取知识来获取事实三元组.由于缺乏人工标注,这些 KG 遭受噪 音和矛盾的问题.当涉及到实际应用时,这些噪音和矛盾将导致错误传播.因此,如何自动检测现有 KG 中的矛盾 或错误已成为将 KG 的信息纳入实际应用中的重要问题. KG 体积过大:现有的 KG 过于繁琐,无法有效地部署在实际应用中.此外,由于 KG 的体积过大,现有的一些 方法由于计算复杂度的问题也并不实用.因此,有必要在现有的方法上进行改进. KG 不断变化:随着时间推移,不断有新的知识产生.现有的 KGE 方法由于其优化目标与 KG 中的所有事实 三元组相关,因此每次 KG 发生变化时都需要从头开始重新学习模型.如果在实际应用中使用 KG,那么它既费时 又不实用.因此,设计一种可以进行在线学习并逐步更新模型参数的 KGE 框架对 KG 的应用至关重要.
一些知识图谱表明学习模型已经被证明是等价的.例如,文献[68]证明 HolE 和 ComplEx 在数学上等价于具 有某些约束的链接预测.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在内的几种代表性模型的统一视 图.Wang 等人[62]探讨了几种双线性模型之间的联系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的几何理 解.大多数工作使用不同的模型来描述知识获取和关系提取.然而,以类似于图网络统一框架的方式进行的统一 研究[158]是弥合研究差距的一种有价值的方法.
知识表示的可解释性是知识获取和实际应用中的关键问题.现有方法已为可解释性作出了初步努力. ITransF[51]采用稀疏向量进行知识迁移,通过注意力可视化进行解释.CrossE[92]利用基于嵌入的路径搜索生成对 链接预测的解释,探索了知识图谱的解释方案.然而,这些神经模型在透明度和可解释性方面受到了限制,一些 方法结合逻辑规则来提高互操作性,从而将黑盒神经模型与符号推理相结合.因此,应该进一步研究可解释性并 提高预测知识的可靠性.
在大规模知识图谱中,可扩展性非常重要.几种嵌入方法利用简化来降低计算代价,例如,通过循环相关运 算简化张量积[66] .但是,这些方法仍然难以扩展到数以百万计的实体和关系中.最近的神经逻辑模型[161]中的规 则是由简单的蛮力搜索产生的,这使得它们在大规模知识图上表现不足.ExpressGNN[162]试图使用 NeuralLP [163] 进行有效的规则归纳.但是,要处理繁琐的深层架构和不断增长的知识图还需要进一步完善. 6.2.4 自动构建 当前的 KG 高度依赖于人工构建,这是劳动密集且昂贵的.知识图谱在不同认知智能领域的广泛应用需要 从大规模的非结构化内容中自动构建知识图谱.最近的研究主要是在现有知识图的监督下进行半自动构建.面 对多模态,异构性和大规模应用,自动构建仍然是未来亟待解决的重要问题.
知识图谱作为一种语义网络拥有极强的表达能力和建模灵活性,可以对现实世界中的实体、概念、属性以 及它们之间的关系进行建模.随着最近出现的知识表示学习、知识获取方法和各种知识图谱应用,知识图谱引 起了越来越多的研究关注.知识图谱嵌入旨在将实体和关系嵌入到连续向量空间中,在各种面向实体的任务中得到了重要应用.本文围绕知识图谱嵌入技术的研究现状,通过回顾仅使用事实进行知识图谱嵌入的方法、添 加时间维度的动态 KGE 方法以及融合多源信息的 KG E 技术介绍了现有的知识图谱嵌入技术.并简要讨论了 KGE 技术在下游任务中的实际应用.最后总结了知识图谱嵌入领域所面临的挑战,并对其未来的方向做出展望. 我们进行这项调查的目的是对当前 KGE 的代表性研究工作进行总结,并且希望这一探索可以为 KGE 的未来研 究提供帮助.
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。