摘要: 知识图谱是一种用图结构建模事物及事物间联系的数据表示形式,是实现认知智能的重要基础,得到了学术界和工业界的广泛关注.知识图谱的研究内容主要包括知识表示、知识抽取、知识融合、知识推理4部分. 目前,知识图谱的研究还存在一些挑战.例如,知识抽取面临标注数据获取困难而远程监督训练样本存在噪声问题,知识推理的可解释性和可信赖性有待进一步提升,知识表示方法依赖人工定义的规则或先验知识,知识融合方法未能充分建模实体之间的相互依赖关系等问题.由环境驱动的强化学习算法适用于贯序决策问题.通过将知识图谱的研究问题建模成路径(序列)问题,应用强化学习方法,可解决知识图谱中的存在的上述相关问题,具有重要应用价值. 首先梳理了知识图谱和强化学习的基础知识.其次,对基于强化学习的知识图谱相关研究进行全面综述.再次,介绍基于强化学习的知识图谱方法如何应用于智能推荐、对话系统、游戏攻略、生物医药、金融、安全等实际领域.最后,对知识图谱与强化学习相结合的未来发展方向进行展望.
自谷歌在2012年推出“知识图谱”(knowledge graph,KG)后,知 识 图 谱 技 术 已 迅 速 成 为 数 据 挖 掘、数据库和人工智能等领域的研究热点.知识图谱 采用图 结 构 来 描 述 知 识 和 建 模 事 物 及 事 物 间 关 系[1].它将信息表达成更接近人类认知的形式,提供 了一种组织、管理和认知理解海量信息的能力[2].知 识图谱本质是一种大规模语义网络,既包含了丰富 的语义信息,又天然具有图的各种特征,其中,事物 或实体属性值表示为“节点”,事物之间的关系或属 性表示为“边”.目前,知识图谱相关的知识自动获 取、知 识 推 理、知 识 表 示、知 识 融 合已成为搜索问答、大数据分析[4]、智能推荐[6]和 数据集成[11]的强大资产,被广泛应用于多个行业 领域.
目前,大部分知识图谱的研究是基于监督学习 的方法.然而,为模型获得足够的标注数据成 本较高.为此部分学者提出使用远程监督的方法来 减少数据标注[15],远程监督指的是借助外部知识库 为数据提供标签[16].但远程监督获得的训练样本中 存在噪声.此外,现有方法还存在依赖人工预定义的 规则和先验知识或模型缺乏可解释性等问题.强化 学习(reinforcementlearning,RL)适用于贯序决策 问题,通过学习如何与环境交互,进而辅助人类决 策.它在进行策略选择时更关注环境状态,对行为的 选择进行更好地理解和解释.将知识图谱研究的问 题建模成路径或序列相关的问题,例如,将基于远程 监督的命名实体识别中干净样本的选择建模成序列 标注任务、将关系推理建模成路径查找问题等,应用 强化学习算法可以避免依赖人工预定义的规则或先 验知识,解决模型缺乏可解释性或仅提供事后可解 释性(postGhocexplanation)的问题,具有重要的研 究和应用价值.
近年来,学术界和工业界对知识图谱、强化学习 2个领域进行了深入研究,有不少分别聚焦知识图 谱和强化学习的综述性文章.文献分别围绕知识图谱的表示学习、知识获取、知 识推理、知识图谱构建与应用、多模态知识融合等进 行综述.文献分别对基于价值的和基于策略 的强化学习、深度强化学习算法、多智能体算法进行 综述.文献对强化学习在综合能源管理和金 融交易领域的研究进行阐述.然而,尽管已有诸多的 知识图谱、强化学习综述文献,但仍缺乏对知识图谱 和强化学习相结合的研究进行系统地梳理和总结的 工作.与现有的工作相比,本文工作的不同主要体现 在2个方面:1) 通过系统调研已发表的基于强化学 习的知识图谱相关研究的论文,全面总结了基于强 化学习的知识图谱研究,包括知识抽取、知识推理、 知识表示、知识融合等研究成果.2) 介绍了基于强化 学习的知识图谱如何应用于智能推荐、游戏攻略、生 物医药、金融、网络安全等实际领域.本文是第1篇 系统介绍该研究方向的综述论文.
基于强化学习的知识图谱研究
目前,大多数知识图谱的相关方法基于监督学 习,但对数据进行标注费时费力.为了解决标注困难 的问题,有学者提出了远程监督的方法.远程监督减 少了数据 标 注 成 本,但 又 在 训 练 数 据 中 引 入 了 噪 声[15].虽然,目前知识图谱的研究方法在准确率、精 度、召回率等性能上取得了很好的效果,但这些方法 结果的透明性、可解释性、可信赖性等还有待进一步 研究.强化学习方法不同于一般的监督学习, 它把相关问题建模为序列决策问题,近年来在知识 图谱领域得到应用,可以帮助解决远程监督的噪音 问题、知识推理结果可解释性差[105]等问题.本节将 分别从命名实体识别、关系抽取、知识推理、知识表 示、知识融合等5个方面,详细介绍强化学习方法在 各类研究中的进展,如图3所示:
命名实体识别
关系抽取
关系可以定义为实体之间或实体与属性之间的 某种联系,关系抽取就是自动识别实体(或实体与属 性)之间具有的某种语义关系.现有关系抽取方法大 多基于神经网络模型[46G54],通过监督学习或远程监 督学习来完成抽取任务.为了降低标注成本,学者们 提出使用远程监督的方法.远程监督方法虽然有效, 但在训练样本中引入了噪声[15].强化学习方法可以 通过知识引导来避免噪声数据带来的影响.基于强 化学习的关系抽取方法主要可以分为3类:1)使用 强化学习模型对抽取结果进行知识验证;2)利用强 化学习模型进行训练样本选择;3)将实体识别与关 系抽取2个任务联合建模,互为增强。
知识推理
知识图谱通常是不完整的.知识推理是指根据 知识图谱中已有的知识,采用某些方法,推理出新的 知识,包括实体预测和关系预测.传统的推理方法, 例如基于规则的推理[55G56]会引入一些人类先验知 识,专家依赖度过高.目前,大部分知识推理是基于 神经网络模型[58G64].神经网络模型通常更关注于推 理结果,模型可解释性、可信赖性有待进一步提升. 除基于规则、基于神经网络的推理方法外,知识 推理问题也可以建模成知识图谱中路径查找问题, 其中节点代表实体,关系代表边.强化学习智能体根 据当前环境(所在节点)通过策略学习或价值函数学 习,来决定下一步的行动(通常为关系或(关系,实 体)),从而完成推理任务.因此,基于强化学习的知 识图谱推理在学术界和工业界得到广泛研究.基于 强化学习的知识图谱推理方法依据智能体的个数可 以分为单智能体推理方法、多智能体推理方法.多智 能体推理方法指至少拥有2个智能体的基于强化学 习的知识推理方法.多智能体之间存在着一定的关 系,如合作、竞争或同时存在竞争与合作的关系.我 们将分别从单智能体推理、多智能体推理2个方面 进行详细介绍.
知识表示
知识图谱 在 表 示 结 构 化 数 据 方 面 非 常 有 效, 但这种三元组的基本符号性质使知识图谱难以操 作[135].为了解决这一问题,提出了知识表示学习[1]. 知识表示学习旨在将知识图谱丰富的结构和语义信 息嵌入到低维节点表示中.目前,常用的知识表示学 习方法[1]有基于翻译模型 Trans系列的方法[69G71]、基 于语义匹配的方法[68G69]、基于神经网络的方法[71G76].基于翻译模型的方法简单易于理解,但是基于翻译 模型的方法不能处理复杂关系,模型复杂度较高.基 于语义匹配的方法需要大量参数且复杂度较高,限 制了其在大规模稀疏知识图谱上的应用.基于神经 网络的方法虽然建模能力较强,但是结果缺乏一定 的可解释性.基于图的随机游走模型[136G138]也是用于 知识表示学习的一类方法.这类方法依赖于人工设 置元路径来捕获图的语义信息.然而,人工设置元路 径需要丰富的专家领域知识,对于大规模、复杂且语 义丰富的知识图谱来说,是一件充满挑战的任务.
知识融合
知识图谱中的知识来源广泛,具有多源、异构等 特点,需要构建统一的大规模知识库来支撑推理和理 解任务.知识融合研究如何将来自多个来源的关于 同一个实体或概念的描述信息融合起来[11],形成高质量统一的知识图谱的一类任务.通常,知识融合包 括本体匹配(ontologymatching)、本体对齐(ontology alignment)、实 体 链 接 (entitylinking)、实 体 消 歧 (entitydisambiguation)、实体对齐(entityalignment) 等.现有的知识融合方法还存在受噪声数据以及对 齐种子对数量的限制[141],或者未能充分建模实体 之间的相互依赖关系等问题.
基于强化学习的知识图谱的应用
知识图谱可以为各领域提供丰富的信息和先验 知识,强化学习方法拥有强大的探索能力和自主学 习能力.基于强化学习的知识图谱相关技术能够降 低噪声数据的干扰、自动选择高质量的样本数据、更 好地理解环境和提供可信解释.因此,基于强化学习 的知识图谱在很多领域得到应用.强化学习与知识 图谱的结合,从结合方式上来看,可以分为2类.1) 将实际问题建模为包含多种节点类型和关系类型的 知识图谱,强化学习在知识图谱上进行探索学习策 略.2) 将知识图谱作为外部信息引入强化学习框架 中,用来指导强化学习的探索过程.我们将介绍如何 将知识图谱与强化学习结合解决实际应用中的问 题,包括智能推荐、对话系统、游戏攻略、生物医药、 金融、网络安全等.
智能推荐
推荐系统常面临数据稀疏、可解释性等问题以及个性化定制、新型推荐任务等新的需求.知识图谱 可以向推荐系统中引入辅助信息,如商品内容、跨领 域信息等.与常用的推荐方法不同,基于强化学习的 知识图谱推荐是在知识图谱中探索图(路径查找)来 找到从用户到商品的有意义的路径.强化学习智能体在探索过程中进行决策,解决数据稀疏,提高推荐 可解释性,使得推荐结果更符合用户需求。
对话系统
自然语言处理领域的一个重要应用就是人机对 话系统,它是人机交互的核心功能之一.计算机想要 顺利无障碍地和人类交流,必须具备丰富的背景知 识以及强大的决策能力,结合背景知识去理解对话 内容,从外部知识库中找出相关的知识并进行推理, 从而生成合适的回答.知识图谱为对话系统提供了 丰富的背景知识,而强化学习可以从相关知识集合 中选出恰当的知识,并且可以利用用户的隐式负反 馈信息,确保对话效果持续稳步提升.
游戏攻略
文字类冒险游戏是一种玩家必须通过文本描述 来了解世界,通过相应的文本描述来声明下一步动 作的游戏.这类游戏中强化学习智能体根据接收到 的文本信息进行自动响应,以实现规定的游戏目标 或任务(例如拿装备、离开房间等).强化学习善于序 列决策,知识图谱善于建模文本的语义和结构信息. 因此,强化学习和知识图谱相结合在文字类冒险游 戏中得到了成功的应用.基于强化学习的知识图谱 方法在进行游戏策略学习时主要思路可分为2类: 1)将游戏状态构建成一张知识图,利用强化学习技 术进行游戏策略学习;2)将知识图谱作为外部知识 辅助强化学习智能体进行决策.
药物∕疾病预测
在生物医药领域,药物合成、新材料发现、疾病 预测等在科技迅速发展的今天显得日益重要,给社会 发展和人们生活带来巨大变化.引入强化学习方法, 可以利用智能体在知识图谱中的自动探索做出最优 决策,同时找到的路径可以为反应物生成或者疾病 预测提供可解释性依据.目前,基于强化学习的知识 图谱技术已经被应用于发现新的药物或材料、化学 反应物预测以及药物组合预测、疾病预测等领域。
未来发展方向
近几年来,针对知识图谱和强化学习的相关研 究已经成为人工智能领域的热点方向.知识图谱可 以同时建模数据的拓扑结构和语义信息,强化学习 是一种从试错过程中发现最优行为策略的技术[84], 适用于解决贯序决策问题.知识图谱与强化学习的 结合有利于提升训练样本质量,还有利于提高可解 释性和可信赖性.但是,强化学习方法在知识图谱领 域应用也存在一些不足,主要表现在2个方面:1)对 强化学习状态的表示,文献[134]提到目前强化学习 状态表示大多使用预训练得到的节点嵌入.然而,当 知识图谱中增加新三元组时,节点的嵌入也需要重 新训练,计算成本较大.文献[126]提到除了结构信 息以外,节点的文本描述信息、层次结构的类型信息 也十分重要.在知识图谱表示学习领域,文献[172] 和文献[173]分别将文本描述信息、关系路径等信 息,用于构建更加精准的知识表示.然而,这些方法 还未广泛应用于强化学习状态的表示中.2)强化学 习的奖励函数设计,与人工定义奖励函数相比,文献 [122]和文献[147]已经开始尝试利用知识图谱中的 信息结合抗性学习来生成自适应的奖励函数.如何 自动生成更合理的奖励函数还有待进一步研究. 目前围绕强化学习与知识图谱结合的研究还处 于起步阶段,有广阔的发展空间.未来值得关注5个 方向:
1)基于强化学习的动态时序知识图谱研究
随着应用的深入,人们不仅关注实体关系三元 组这种简单的知识表示,还需要掌握包括逻辑规则、 决策过程在内的复杂知识.目前基于强化学习的知 识图谱研究主要围绕静态知识图谱.然而,知识随着 时间的推移往往是动态变化的.如何利用强化学习 在解决序列决策问题方面的优势,来建模知识图谱 的动态性,学习知识图谱的变化趋势,解决实际应用 中的复杂问题是一个值得研究的课题.Li等人[174]研 究了动态时序知识图谱的时序推理问题.受人类推 理方式的启发,CluSTeR(cluesearchingandtemporal reasoning)包含线索搜索和时序推理2部分.线索搜 索模块采用随机集束搜索算法,作为强化学习的动 作采样方法,从历史事件中推断多条线索.时序推理 模块使用基于 RGGCN 进行编码,并应用 GRU 进行 时序预测,实现从线索中推理答案.
2)基于强化学习的多模态知识图谱研究
面对越来越复杂多样的用户诉求,单一知识图 谱已不能满足行业需求.多模态数据[11]可以提供更 丰富的信息表示,辅助用户决策,提升现有算法的性 能.目前,基于强化学习的知识图谱研究主要针对文 本数据.如何利用强化学习技术进行多模态知识图谱 的构建与分析仍是一个值得研究的方向.He等人[175] 将强化学习方法应用于视频定位(videogrounding) ,即给定一段文本描述将其与视频片段相匹配的任 务中.He等人将这个任务建模为一个顺序决策的问 题,利用 ActorGCritic算法学习一个 逐步 调节时间 定位边界的代理,完成视频与文本的匹配.
3)基于新的强化学习方法的知识图谱研究
强化学习作为人工智能领域研究热点之一,其 研究进展与成果也引发了学者们的关注.强化学习 领域最近提出了一系列新的方法和理论成果,例如, 循环元强化学习[176]、基于 Transformer的 强 化 学 习[177]、逆强化学习[178]等相关的理论.如何将这些新 的理论方法应用在知识图谱的构建或研究应用中, 值得深入思考.Hou等人[179]在强化学习动作选择中 引入了知识图谱中隐含的规则来约束动作选择,进 一步精简了动作空间,提高了强化学习效率.Hua等 人[180]提出了一种元强化学习方法来进行少样本复 杂知识库问答,以减少对数据注释的依赖,并提高模 型对不同问题的准确性.
4)基于强化迁移学习的知识图谱研究
基于强化学习的知识图谱方法具有一定的可解 释性和准确性.但强化学习不同于监督学习,样本数 据来源于智能体与环境的交互,会导致收集大量无 用且重复的数据,成本较高.一种解决思路是将迁移 学习应用到强化学习中,通过将源任务学习到的经 验应用到目标任务中,帮助强化学习更好地解决实 际问题.文献[164]、文献[170]将迁移学习和强化 学习结合起来,分别应用于同类游戏策略学习以及 动态金融知识图谱构建领域,并取得了不错的效果, 缓解了特定领域因训练数据不足所带来的挑战,提 高了模型举一反三和融会贯通的能力.因此,基于强 化迁移学习的知识图谱研究也是未来一个重要的研 究方向.
5)算法可解释性度量研究
由于知识图谱能够提供实体间的语义和结构信 息,强化学习智能体的学习过程和人类认知世界的 过程比较相似,产生的解释更易于人类理解.因此, 一些研究者利用强化学习和知识图谱开展可解释性的研究.然而,这些研究工作可解释性的效果只能通 过实例分析来进行评测.目前,针对解释性还没有统 一或者公认的衡量标准[84],如何衡量模型的可解释 性是未来需要研究的问题之一.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“RLKG” 就可以获取《基于强化学习的知识图谱综述》专知下载链接