知识图谱作为一种结构化的人类知识形式,对海量多源异构异质的数据语义互通起到了很好的支撑作用,并有效地支 持了数据分析等任务,成为了近年来学术界和工业界的研究热点.目前大多数知识图谱都是根据非实时的静态数据构建,没有 考虑实体和关系的时间特性.然而社交网络通信、金融贸易、疫情传播网络等应用场景的数据具有实时动态的特点以及复杂的 时间特性,如何利用时序数据构建知识图谱并且对该知识图谱进行有效建模是一个具有挑战性的问题. 目前,有许多研究工作 利用时序数据中的时间信息丰富知识图谱的特征,赋予知识图谱动态特征,将事实三元组拓展为(头实体,关系,尾实体,时间) 的四元组表示,使用时间相关四元组进行知识表示的知识图谱被统称为时序知识图谱.文中对时序知识图谱相关文献进行整 理和分析,并对时序知识图谱表示学习的工作进行了全面综述. 具体地,首先简单介绍了时序知识图谱的背景与定义;其次总 结了时序知识图谱表示学习方法相比传统知识图谱表示学习方法的优点;然后从事实的建模方法角度详细阐述了时序知识图 谱表示学习的主要方法,并且介绍了上述方法使用到的数据集;最后对该技术的主要挑战进行了总结,并对其未来研究方向进 行了展望.
**1 引言 **
现实世界中,当我们进行深入数据分析时,需要对多源异 构数据的离散信息进行融合,并从海量数据中检索出有价值 的信息.如何提高信息检索的准确性并对客观规律进行归纳 总结,使数据能够更好地服务于其他应用成为了一个挑战. 谷歌为了提升其搜索引擎返回的答案质量,于2012年提出了 知识图谱的概念.知识图谱是一种结构化的人类知识表示形 式,由实体、关系和语义描述构成.谷歌提出的“thingsnot strings”的语义搜索范式[1G2]改进了只关注字符串匹配的检索 方法,使得信息检索更关注字符串背后的语义信息,对信息检 索模式产生了深远的影响.随着知识图谱的兴起,易贝[3]、优 步[4]、亚马逊[5]等公司也纷纷推出企业知识图谱产品.知识 图谱已成为了人工智能的前沿研究问题. 结合人类知识来提升算法性能是人工智能的研究方向之 一.机器能够理解并利用好知识的关键在于将知识转化为符 合其语义的、机器可读的表示.大部分知识图谱使用资源描 述框架(ResourceDescriptionFramework,RDF)三元组建模 实体以及实体之间的关系,三元组的基本结构为(头实体,关 系,尾实体),如(颐和园,坐落于,北京市海淀区).然而,使用 这种知识表示形式存在图算法计算复杂度高、可扩展性差的 计算效率问题以及罕见实体难以进行语义计算的数据稀疏问 题[6].以深度学习为代表的表示学习技术将知识图谱中的实 体和关系投影到低维连续向量空间,以捕获实体和关系的潜 在语义,有效地解决了上述问题.在医疗健康、天气预报、生 物学、股票价格预测等领域,由于其领域应用多与时间相关, 因此产生了较多与时间密切相关的时序数据,具有高度动态 的特点,表现出复杂的时间特性.随着深度学习技术的快速 发展,越来越多的深度学习模型能够对时间序列数据进行编 码,并且学习到知识,以更完整的方式学习到更复杂的数据模 式.然而对于动态演化的大数据背景,使用传统知识图谱表 示学习方法仍然面临着很多挑战,主要包括以下两个方面. **(1) 语义相似关系混淆问题 传统的表示学习方法虽然能够学习到实体和关系的语义 信息,但是无法区分具有相似语义的关系,预测时易出现混 淆,如(人,出生于,地点)、(人,去世于,地点)这两种类型的三 元组中的“出生于”和“去世于”这两种关系的头实体都是人 名,尾实体都是地名,语义信息相似.传统的表示学习方法没 有利用数据中的时间信息增强实体和关系的表示,经常会混 淆这种语义相似关系,使得算法预测性能不理想.(2) 干扰项过多 **传统的表示学习方法在进行三元组链接预测时,会对候 选三元组集中的每个三元组计算一个得分,并选择得分最高 的三元组作为预测结果.然而候选三元组中通常存在大量干 扰项,传统的表示学习方法无法捕获时间信息对实体和关系 演化的影响,使得模型预测时在时序数据上下文中无法捕获 知识图谱中实体的历史行为对其当前状态的影响,且不能根 据三元组中头实体和尾实体的状态直接对候选三元组的干扰 项进行排除,一定程度上也降低了模型预测的性能. 近年来,有 许 多 研 究 工 作 利 用 时 间 信 息 提 升 知 识 图 谱表示学习的质量,对知识图谱的动态过程进行建模,利用时间 信息编码节点、边的表示,将事实三元组拓展为(h,r,t,τ)的 四元组表示,表示三元组在时间间隔τ内有效或者在时间点τ 时有效:(h,r,t,τ).使用时间相关四元组进行知识表示的知 识图谱是时序知识图谱,通过引入时间信息对语义相似关系 进行了一定程度的区分,并通过时间一致性信息直接对候选 三元组中的干扰项进行排除,提升了实体、关系表示学习的质 量以及知识推理的准确性.这一类研究工作被统称为时序知 识图谱表示学习.经过调研发现,目前缺乏对时序知识图谱 表示学习任务全面的综述.本文对时序知识图谱表示学习的工作进行了系统性的总 结与概括. 本文第2节首先介绍时序知识图谱的定义与基本 概念以及时序知识图谱表示学习的优势;第3节根据对事实 的建模方法、模型对知识推理的设置、模型对数据的处理方法 3个角度对该领域的研究工作进行总结整理,为了方便读者 理解模型的主要思想和方法,本文从对事实建模方法的角度 详细地阐释相关研究工作的思想和方法;第4节介绍相关研 究工作使用的数据集;第5节对时序知识图谱表示学习仍然 存在的困难与挑战进行分析;最后总结全文并展望未来.
2 时序知识图谱表示学习的概念与特点
在介绍时序知识图谱表示学习的主要方法、数据集和主 要挑战之前,本文先对时序知识图谱表示学习进行简要介绍, 包括时序知识图谱的定义与基本概念以及时序知识图谱表示 学习的优势.
2.1 时序知识图谱的定义与基本概念
传统的知识图谱研究主要集中在静态知识图谱上,静态 知识图谱的事实不会随时间的变化而变化,而对知识图谱中 实体和关系的时间动态演化少有研究.然而大多数结构化知 识仅在特定时期内有效,例如:针对诸如事件类这种与时间特 性紧密相关的知识,需要用一种包含时间信息的动态的知识 图谱进行描述.因此,时间信息在知识图谱表示学习中尤为 重要.时序知识图谱是关系上带有时间戳信息的多关系有向 知识图谱,Jiang等[7]于2016年首次将时间信息编码到知识 图谱的表示学习中,并通常将时序知识图谱中带有时间戳信 息的三元组直接建模为四元组,表示三元组在时间间隔τ内有 效或者在时间点τ时有效:(h,r,t,τ),例如四元组(贝拉克 侯赛因奥巴马,总统,美国,[2008年11月4日,2017年1 月20日])表示实体“奥巴马”与“美国”之间在2008年11月4 日至2017年1月20日这个时间间隔内具有“总统”关系,后 续的时序知识图谱表示学习研究工作也使用Jiang等定义的 知识表示形式.我们可以将整个时序知识图谱表示为 K= {(h,r,t,τ)|h,t∈ε,r∈R,τ∈T},其中ε是实体集合,包含|ε| 种不同实体;R是关系,包含|R|种不同关系;T是时间戳信息 集合,包含|T|种不同时间戳.
2.2 时序知识图谱表示学习的主要优点
相比传统的静态知识表示学习方法,时序知识图谱表示 学习主要具有以下优点.
(1)缓解语义相似关系混淆
针对知识图谱传统表示学习方法无法捕获知识图谱的动态演化的问题,以及由于基于静态事实的假设无法学习事 实的时间动态的问题,时序知识图谱表示学习引入时间信息 编码实体和关系的表示演化,捕获知识图谱中存在时间信息 和现实世界事实的动态性质.时序知识图谱表示学习可以捕 获到实体和关系演化的顺序信息,如对于时序知识图谱的同 一实体,其作为头实体的三元组序列通常具有一定的顺序,如 (爱因斯坦,出生于,乌尔姆,1879)表示爱因斯坦出生于乌尔 姆的事实发生在1879年,(爱因斯坦,获奖,诺贝尔奖,1922) 表示爱因斯坦获得诺贝尔奖的事实发生在1922年,(爱因斯 坦,去世于,普林斯顿,1955)表示爱因斯坦去世于普林斯顿的 事实发生在1955年.将事实发生的时间戳信息引入到表示 学习中使得模型能够学习关系表示的因果模式,如在“出生于 ->毕业于->工作于->去世于”这种描述关系演变发展 的时序顺序链中,引入时间信息能帮助模型对“出生于”和“去 世于”这种语义相似的关系进行更细粒度的区分.
(2)减少模型预测的干扰项
时序知识图谱表示学习捕获了知识图谱中的时间一致性 信息.知识图谱中的很多事实都是在一定时间内有效,例如 某个人在某球队效力只是在一段时间内有效,一个国家不能 同时拥有两个总统.传统的知识表示学习方法获得的候选预 测中不可避免地包含许多不正确的预测.捕获的时间一致性 信息也能够帮助我们在预测时排除掉一些错误选择,从而得 到更准确的预测结果.通过将事实的时间戳信息融入到表示 学习的过程,时序知识图谱表示学习方法在检测表示学习质 量的多个链接预测任务中展示出了比传统知识图谱表示学习 方法更优异的性能.
(3) 辅助时间序列预测
利用好时序知识图谱中的时间信息可以很好地帮助时间 序列进行预测.社交网络通信、金融贸易、疫情传播网络等应 用场景数据具有高度动态的特点,表现出复杂的时间特性,例如国家之间的贸易信息可以用时序知识图谱表示,国家之 间贸易的信息会影响国家的货币汇率.我们可以利用时序知 识图谱的信息对已发生的事实动态以及事实相关性进行建 模,以更好地提升货币汇率这种时间序列预测问题的准确性.
3 时序知识图谱表示学习的主要方法
知识图谱能够对实体及其丰富关系的结构化信息进行编 码.尽管典型的大型知识图谱可能包含数百万个实体和数十 亿个关系事实,但是知识图谱在应用中仍然存在关系缺失或 者属性缺失等不完备性问题,以及构建时采用统计方法带来 的知识错误问题.为了解决上述问题,时序知识图谱相关研 究工作利用知识图谱中事实发生的时间信息增强实体和关系 的表示,并在此基础上对推导出的实体间关系进行打分,从而 学习到新的实体关系,以增强知识图谱的完备性并且对知识 图谱构建过程中出现的错误进行检测.近年来,随着知识图 谱的应用越来越广泛,其也引起了越来越多的研究者的关注, 使用深度学习方法分析时序数据的热潮为时序知识图谱表示 学习的研究带来了新的机遇.从对事实的建模方法来看,时序知识图谱表示学习的方 法可以分为翻译模型、双线性模型、旋转模型、时序点过程、概 率分布、图神经网络以及其他模型; 从知识推理的设置来看, 时序知识图谱表示学习的方法可以分为插值(Interpolation) 和外推(Extrapolation),当给定时间戳为t0到tT 的知识图谱序 列,插值设置对时间戳范围 为[t0,tT ]中 的 缺 失 事 实 进 行 预 测,外推设置对时间戳范围为(tT ,∞)的未来事实进行预测; 从对时序知识图谱的建模方式来看,时序知识图谱表示学习 的方法可以分为使用静态子图的方法和不使用静态子图的方 法.使用静态子图的方法即把时序知识图谱按照离散时间点 分割为多个静态子图.表1列出了模型对事实的建模方法、发 表的会议、模型对知识推理的设置、模型对数据的处理方法.
4 时序知识图谱表示学习数据集
本节主要介绍时序知识图谱表示学习研究工作使用的数 据集ICEWS(IntegratedCrisisEarly WarningSystem),YAG,GO15K,GDELT。
**5 时序知识图谱表示学习未来研究方向展望 **
时序知识图谱表示学习方法在知识图谱实体预测、链接 预测等任务上表现出了卓越的性能,并且相对于传统知识表 示学习方法而言,其适合更多的应用场景,在金融、医疗、生物 信息学、交通等领域的应用有着非常好的前景.除了上一节 中提到的面临的主要挑战外,还有一些问题有待解决.本节 将对时序知识图谱表示学习的未来方向进行展望.
5.1 利用逻辑规则增强时序知识图谱表示学习的准确性和可解释性
基于连续向量的表示学习方法虽然能够发现人们不易总 结出来的隐性知识和潜在假设,并且能够更容易与其他深度 学习模型集成,以进行更多任务的实现,但是可解释性非常 差.对于这个问题,图结构中的关联路径和规则为知识表示 学习和推 理 提 供 了 可 解 释 性.近 年 来,也 有 越 来 越 多 的 工 作[12,38G39]将表示学习与规则学习结合起来,用两种方法的优 势互相弥补对方的不足,以提高推理的鲁棒性和效率,并为表 示学习提供可解释性.然而,在时序知识图谱背景下并没有 研究工作结合逻辑规则对表示学习进行约束以提升准确性和 可解释性.如何将逻辑规则以及时间信息同时编码到实体和 关系的表示是一个值得研究的问题.
5.2 增强稀疏实体编码能力的时序知识图谱表示学习
时序知识图谱中存在许多稀疏实体,即在所有 的 已 知 事实集合中出现频率较低的实体,因此已知事实集合中关于 该实体随时间的演化信息同样是稀疏的.时序知识图谱表示 学习方法对稀疏实体的编码能力较差,从而对模型的整体性 能产生了一定的影响.我们需要探索一种能够增强稀疏实体 编码能力的时序知识图谱表示学习方案.
5.3 时序知识图谱快速在线表示学习
时序知识图谱的表示学习方法虽然能够通过分布式表示 显著提升计算效率,但是在处理大规模数据时差强人意.在 金融等许多应用场景中每天都有大量的增量数据,每当有新 的实体添加到知识图谱中,基于表示学习的方法需要花费大 量时间进行重新训练,以实现为新实体学得表示.因此,探索 一种时序知识图谱快速在线表示学习方法对于知识图谱在金 融等领域的应用具有重要意义.
5.4 时序知识图谱在推荐系统的应用
为了缓解推荐系统的数据稀疏和冷启动问题,有很多工 作[40G51]利用知识图谱中的语义信息增强对用户和商品的学 习,从而提升推荐系统的准确性与可解释性.然而,目前绝大 多数工作仅局限于传统的静态知识图谱,推荐系统中用户与 商品的交互具有很强的时效性(用户在不同时间对商品的收 藏、购买等行为刻画了不同的用户偏好),如果能够利用好时 间信息,将时序知识图谱表示学习方法与推荐系统相结合,对 提升推荐效果具有重要意义
6. 结束语
通过对时序知识图谱表示学习的相关研究工作 进行梳理,我们认为时序知识图谱表示学习具有重要意义. 现实世界的绝大多数应用场景数据具有高度动态的特点,表 现出复杂的时间特性.时序知识图谱表示学习将时间信息编 码到实体和关系的表示中,能够更好地应用到现实应用场景中的知识图谱补全等任务中,已成为知识表示学习的热点和 趋势.本文对时序知识图谱表示学习的主要方法进行了梳理, 对其最新进展进行了综述,对每类方法的核心思想以及代表 性算法进行了对比分析,总结了时序知识图谱表示学习方法 的研究规律,简要介绍了时序知识图谱表示学习面临的挑战 以及可能的解决方案,并且对其未来研究方向进行了探讨.