基于强化学习的知识图谱综述

2022 年 8 月 20 日 专知

摘要： 知识图谱是一种用图结构建模事物及事物间联系的数据表示形式，是实现认知智能的重要基础，得到了学术界和工业界的广泛关注.知识图谱的研究内容主要包括知识表示、知识抽取、知识融合、知识推理4部分. 目前，知识图谱的研究还存在一些挑战.例如，知识抽取面临标注数据获取困难而远程监督训练样本存在噪声问题，知识推理的可解释性和可信赖性有待进一步提升，知识表示方法依赖人工定义的规则或先验知识，知识融合方法未能充分建模实体之间的相互依赖关系等问题.由环境驱动的强化学习算法适用于贯序决策问题.通过将知识图谱的研究问题建模成路径(序列)问题，应用强化学习方法，可解决知识图谱中的存在的上述相关问题，具有重要应用价值. 首先梳理了知识图谱和强化学习的基础知识.其次，对基于强化学习的知识图谱相关研究进行全面综述.再次，介绍基于强化学习的知识图谱方法如何应用于智能推荐、对话系统、游戏攻略、生物医药、金融、安全等实际领域.最后，对知识图谱与强化学习相结合的未来发展方向进行展望.

自谷歌在２０１２年推出“知识图谱”(knowledge graph,KG)后,知识图谱技术已迅速成为数据挖掘、数据库和人工智能等领域的研究热点．知识图谱采用图结构来描述知识和建模事物及事物间关系[１]．它将信息表达成更接近人类认知的形式,提供了一种组织、管理和认知理解海量信息的能力[２]．知识图谱本质是一种大规模语义网络,既包含了丰富的语义信息,又天然具有图的各种特征,其中,事物或实体属性值表示为“节点”,事物之间的关系或属性表示为“边”．目前,知识图谱相关的知识自动获取、知识推理、知识表示、知识融合已成为搜索问答、大数据分析[４]、智能推荐[６]和数据集成[１１]的强大资产,被广泛应用于多个行业领域．

目前,大部分知识图谱的研究是基于监督学习的方法．然而,为模型获得足够的标注数据成本较高．为此部分学者提出使用远程监督的方法来减少数据标注[１５],远程监督指的是借助外部知识库为数据提供标签[１６]．但远程监督获得的训练样本中存在噪声．此外,现有方法还存在依赖人工预定义的规则和先验知识或模型缺乏可解释性等问题．强化学习(reinforcementlearning,RL)适用于贯序决策问题,通过学习如何与环境交互,进而辅助人类决策．它在进行策略选择时更关注环境状态,对行为的选择进行更好地理解和解释．将知识图谱研究的问题建模成路径或序列相关的问题,例如,将基于远程监督的命名实体识别中干净样本的选择建模成序列标注任务、将关系推理建模成路径查找问题等,应用强化学习算法可以避免依赖人工预定义的规则或先验知识,解决模型缺乏可解释性或仅提供事后可解释性(postＧhocexplanation)的问题,具有重要的研究和应用价值．

近年来,学术界和工业界对知识图谱、强化学习２个领域进行了深入研究,有不少分别聚焦知识图谱和强化学习的综述性文章．文献分别围绕知识图谱的表示学习、知识获取、知识推理、知识图谱构建与应用、多模态知识融合等进行综述．文献分别对基于价值的和基于策略的强化学习、深度强化学习算法、多智能体算法进行综述．文献对强化学习在综合能源管理和金融交易领域的研究进行阐述．然而,尽管已有诸多的知识图谱、强化学习综述文献,但仍缺乏对知识图谱和强化学习相结合的研究进行系统地梳理和总结的工作．与现有的工作相比,本文工作的不同主要体现在２个方面:１) 通过系统调研已发表的基于强化学习的知识图谱相关研究的论文,全面总结了基于强化学习的知识图谱研究,包括知识抽取、知识推理、知识表示、知识融合等研究成果．２) 介绍了基于强化学习的知识图谱如何应用于智能推荐、游戏攻略、生物医药、金融、网络安全等实际领域．本文是第１篇系统介绍该研究方向的综述论文．

基于强化学习的知识图谱研究

目前,大多数知识图谱的相关方法基于监督学习,但对数据进行标注费时费力．为了解决标注困难的问题,有学者提出了远程监督的方法．远程监督减少了数据标注成本,但又在训练数据中引入了噪声[１５]．虽然,目前知识图谱的研究方法在准确率、精度、召回率等性能上取得了很好的效果,但这些方法结果的透明性、可解释性、可信赖性等还有待进一步研究．强化学习方法不同于一般的监督学习, 它把相关问题建模为序列决策问题,近年来在知识图谱领域得到应用,可以帮助解决远程监督的噪音问题、知识推理结果可解释性差[１０５]等问题．本节将分别从命名实体识别、关系抽取、知识推理、知识表示、知识融合等５个方面,详细介绍强化学习方法在各类研究中的进展,如图３所示:

命名实体识别

命名实体识别旨在对序列进行命名实体标注, 判断输入句子中的词是否属于人名、地名、组织机构名等．现有命名实体识别方法依赖人工标注数据,但标注成本较高．远程监督方法可以降低标注成本[１５],但远程监督获得的训练样本中又存在噪声．强化学习方法可以通过自主学习选择高质量的训练样本数据,解决上述问题．目前,基于强化学习的命名实体识别方法思路主要有２类:１)使用深度强化学习模型自动学习样本选择策略,过滤掉训练数据中的噪声．２)将命名实体识别任务利用强化学习来建模,即将序列标注任务转换为序列决策问题．通过利用 Markov决策过程模型来进行序列标注,即为序列中的每个元素分配一个标签．

关系抽取

关系可以定义为实体之间或实体与属性之间的某种联系,关系抽取就是自动识别实体(或实体与属性)之间具有的某种语义关系．现有关系抽取方法大多基于神经网络模型[４６Ｇ５４],通过监督学习或远程监督学习来完成抽取任务．为了降低标注成本,学者们提出使用远程监督的方法．远程监督方法虽然有效, 但在训练样本中引入了噪声[１５]．强化学习方法可以通过知识引导来避免噪声数据带来的影响．基于强化学习的关系抽取方法主要可以分为３类:１)使用强化学习模型对抽取结果进行知识验证;２)利用强化学习模型进行训练样本选择;３)将实体识别与关系抽取２个任务联合建模,互为增强。

知识推理

知识图谱通常是不完整的．知识推理是指根据知识图谱中已有的知识,采用某些方法,推理出新的知识,包括实体预测和关系预测．传统的推理方法, 例如基于规则的推理[５５Ｇ５６]会引入一些人类先验知识,专家依赖度过高．目前,大部分知识推理是基于神经网络模型[５８Ｇ６４]．神经网络模型通常更关注于推理结果,模型可解释性、可信赖性有待进一步提升．除基于规则、基于神经网络的推理方法外,知识推理问题也可以建模成知识图谱中路径查找问题, 其中节点代表实体,关系代表边．强化学习智能体根据当前环境(所在节点)通过策略学习或价值函数学习,来决定下一步的行动(通常为关系或(关系,实体)),从而完成推理任务．因此,基于强化学习的知识图谱推理在学术界和工业界得到广泛研究．基于强化学习的知识图谱推理方法依据智能体的个数可以分为单智能体推理方法、多智能体推理方法．多智能体推理方法指至少拥有２个智能体的基于强化学习的知识推理方法．多智能体之间存在着一定的关系,如合作、竞争或同时存在竞争与合作的关系．我们将分别从单智能体推理、多智能体推理２个方面进行详细介绍．

知识表示

知识图谱在表示结构化数据方面非常有效, 但这种三元组的基本符号性质使知识图谱难以操作[１３５]．为了解决这一问题,提出了知识表示学习[１]．知识表示学习旨在将知识图谱丰富的结构和语义信息嵌入到低维节点表示中．目前,常用的知识表示学习方法[１]有基于翻译模型 Trans系列的方法[６９Ｇ７１]、基于语义匹配的方法[６８Ｇ６９]、基于神经网络的方法[７１Ｇ７６]．基于翻译模型的方法简单易于理解,但是基于翻译模型的方法不能处理复杂关系,模型复杂度较高．基于语义匹配的方法需要大量参数且复杂度较高,限制了其在大规模稀疏知识图谱上的应用．基于神经网络的方法虽然建模能力较强,但是结果缺乏一定的可解释性．基于图的随机游走模型[１３６Ｇ１３８]也是用于知识表示学习的一类方法．这类方法依赖于人工设置元路径来捕获图的语义信息．然而,人工设置元路径需要丰富的专家领域知识,对于大规模、复杂且语义丰富的知识图谱来说,是一件充满挑战的任务．

知识融合

知识图谱中的知识来源广泛,具有多源、异构等特点,需要构建统一的大规模知识库来支撑推理和理解任务．知识融合研究如何将来自多个来源的关于同一个实体或概念的描述信息融合起来[１１],形成高质量统一的知识图谱的一类任务．通常,知识融合包括本体匹配(ontologymatching)、本体对齐(ontology alignment)、实体链接 (entitylinking)、实体消歧 (entitydisambiguation)、实体对齐(entityalignment) 等．现有的知识融合方法还存在受噪声数据以及对齐种子对数量的限制[１４１],或者未能充分建模实体之间的相互依赖关系等问题．

基于强化学习的知识图谱的应用

知识图谱可以为各领域提供丰富的信息和先验知识,强化学习方法拥有强大的探索能力和自主学习能力．基于强化学习的知识图谱相关技术能够降低噪声数据的干扰、自动选择高质量的样本数据、更好地理解环境和提供可信解释．因此,基于强化学习的知识图谱在很多领域得到应用．强化学习与知识图谱的结合,从结合方式上来看,可以分为２类．１) 将实际问题建模为包含多种节点类型和关系类型的知识图谱,强化学习在知识图谱上进行探索学习策略．２) 将知识图谱作为外部信息引入强化学习框架中,用来指导强化学习的探索过程．我们将介绍如何将知识图谱与强化学习结合解决实际应用中的问题,包括智能推荐、对话系统、游戏攻略、生物医药、金融、网络安全等．

智能推荐

推荐系统常面临数据稀疏、可解释性等问题以及个性化定制、新型推荐任务等新的需求．知识图谱可以向推荐系统中引入辅助信息,如商品内容、跨领域信息等．与常用的推荐方法不同,基于强化学习的知识图谱推荐是在知识图谱中探索图(路径查找)来找到从用户到商品的有意义的路径．强化学习智能体在探索过程中进行决策,解决数据稀疏,提高推荐可解释性,使得推荐结果更符合用户需求。

对话系统

自然语言处理领域的一个重要应用就是人机对话系统,它是人机交互的核心功能之一．计算机想要顺利无障碍地和人类交流,必须具备丰富的背景知识以及强大的决策能力,结合背景知识去理解对话内容,从外部知识库中找出相关的知识并进行推理, 从而生成合适的回答．知识图谱为对话系统提供了丰富的背景知识,而强化学习可以从相关知识集合中选出恰当的知识,并且可以利用用户的隐式负反馈信息,确保对话效果持续稳步提升．

游戏攻略

文字类冒险游戏是一种玩家必须通过文本描述来了解世界,通过相应的文本描述来声明下一步动作的游戏．这类游戏中强化学习智能体根据接收到的文本信息进行自动响应,以实现规定的游戏目标或任务(例如拿装备、离开房间等)．强化学习善于序列决策,知识图谱善于建模文本的语义和结构信息．因此,强化学习和知识图谱相结合在文字类冒险游戏中得到了成功的应用．基于强化学习的知识图谱方法在进行游戏策略学习时主要思路可分为２类: １)将游戏状态构建成一张知识图,利用强化学习技术进行游戏策略学习;２)将知识图谱作为外部知识辅助强化学习智能体进行决策．

药物∕疾病预测

在生物医药领域,药物合成、新材料发现、疾病预测等在科技迅速发展的今天显得日益重要,给社会发展和人们生活带来巨大变化．引入强化学习方法, 可以利用智能体在知识图谱中的自动探索做出最优决策,同时找到的路径可以为反应物生成或者疾病预测提供可解释性依据．目前,基于强化学习的知识图谱技术已经被应用于发现新的药物或材料、化学反应物预测以及药物组合预测、疾病预测等领域。

未来发展方向

近几年来,针对知识图谱和强化学习的相关研究已经成为人工智能领域的热点方向．知识图谱可以同时建模数据的拓扑结构和语义信息,强化学习是一种从试错过程中发现最优行为策略的技术[８４], 适用于解决贯序决策问题．知识图谱与强化学习的结合有利于提升训练样本质量,还有利于提高可解释性和可信赖性．但是,强化学习方法在知识图谱领域应用也存在一些不足,主要表现在２个方面:１)对强化学习状态的表示,文献[１３４]提到目前强化学习状态表示大多使用预训练得到的节点嵌入．然而,当知识图谱中增加新三元组时,节点的嵌入也需要重新训练,计算成本较大．文献[１２６]提到除了结构信息以外,节点的文本描述信息、层次结构的类型信息也十分重要．在知识图谱表示学习领域,文献[１７２] 和文献[１７３]分别将文本描述信息、关系路径等信息,用于构建更加精准的知识表示．然而,这些方法还未广泛应用于强化学习状态的表示中．２)强化学习的奖励函数设计,与人工定义奖励函数相比,文献 [１２２]和文献[１４７]已经开始尝试利用知识图谱中的信息结合抗性学习来生成自适应的奖励函数．如何自动生成更合理的奖励函数还有待进一步研究．目前围绕强化学习与知识图谱结合的研究还处于起步阶段,有广阔的发展空间．未来值得关注５个方向:

１)基于强化学习的动态时序知识图谱研究

随着应用的深入,人们不仅关注实体关系三元组这种简单的知识表示,还需要掌握包括逻辑规则、决策过程在内的复杂知识．目前基于强化学习的知识图谱研究主要围绕静态知识图谱．然而,知识随着时间的推移往往是动态变化的．如何利用强化学习在解决序列决策问题方面的优势,来建模知识图谱的动态性,学习知识图谱的变化趋势,解决实际应用中的复杂问题是一个值得研究的课题．Li等人[１７４]研究了动态时序知识图谱的时序推理问题．受人类推理方式的启发,CluSTeR(cluesearchingandtemporal reasoning)包含线索搜索和时序推理２部分．线索搜索模块采用随机集束搜索算法,作为强化学习的动作采样方法,从历史事件中推断多条线索．时序推理模块使用基于 RＧGCN 进行编码,并应用 GRU 进行时序预测,实现从线索中推理答案．

２)基于强化学习的多模态知识图谱研究

面对越来越复杂多样的用户诉求,单一知识图谱已不能满足行业需求．多模态数据[１１]可以提供更丰富的信息表示,辅助用户决策,提升现有算法的性能．目前,基于强化学习的知识图谱研究主要针对文本数据．如何利用强化学习技术进行多模态知识图谱的构建与分析仍是一个值得研究的方向．He等人[１７５] 将强化学习方法应用于视频定位(videogrounding) ,即给定一段文本描述将其与视频片段相匹配的任务中．He等人将这个任务建模为一个顺序决策的问题,利用 ActorＧCritic算法学习一个逐步调节时间定位边界的代理,完成视频与文本的匹配．

３)基于新的强化学习方法的知识图谱研究

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了学者们的关注．强化学习领域最近提出了一系列新的方法和理论成果,例如, 循环元强化学习[１７６]、基于 Transformer的强化学习[１７７]、逆强化学习[１７８]等相关的理论．如何将这些新的理论方法应用在知识图谱的构建或研究应用中, 值得深入思考．Hou等人[１７９]在强化学习动作选择中引入了知识图谱中隐含的规则来约束动作选择,进一步精简了动作空间,提高了强化学习效率．Hua等人[１８０]提出了一种元强化学习方法来进行少样本复杂知识库问答,以减少对数据注释的依赖,并提高模型对不同问题的准确性．

４)基于强化迁移学习的知识图谱研究

基于强化学习的知识图谱方法具有一定的可解释性和准确性．但强化学习不同于监督学习,样本数据来源于智能体与环境的交互,会导致收集大量无用且重复的数据,成本较高．一种解决思路是将迁移学习应用到强化学习中,通过将源任务学习到的经验应用到目标任务中,帮助强化学习更好地解决实际问题．文献[１６４]、文献[１７０]将迁移学习和强化学习结合起来,分别应用于同类游戏策略学习以及动态金融知识图谱构建领域,并取得了不错的效果, 缓解了特定领域因训练数据不足所带来的挑战,提高了模型举一反三和融会贯通的能力．因此,基于强化迁移学习的知识图谱研究也是未来一个重要的研究方向．

５)算法可解释性度量研究

由于知识图谱能够提供实体间的语义和结构信息,强化学习智能体的学习过程和人类认知世界的过程比较相似,产生的解释更易于人类理解．因此, 一些研究者利用强化学习和知识图谱开展可解释性的研究．然而,这些研究工作可解释性的效果只能通过实例分析来进行评测．目前,针对解释性还没有统一或者公认的衡量标准[８４],如何衡量模型的可解释性是未来需要研究的问题之一．

专知便捷查看