摘要: 知识图谱是一种用图结构建模事物及事物间联系的数据表示形式,是实现认知智能的重要基础,得到了学术界和工业界的广泛关注.知识图谱的研究内容主要包括知识表示、知识抽取、知识融合、知识推理4部分. 目前,知识图谱的研究还存在一些挑战.例如,知识抽取面临标注数据获取困难而远程监督训练样本存在噪声问题,知识推理的可解释性和可信赖性有待进一步提升,知识表示方法依赖人工定义的规则或先验知识,知识融合方法未能充分建模实体之间的相互依赖关系等问题.由环境驱动的强化学习算法适用于贯序决策问题.通过将知识图谱的研究问题建模成路径(序列)问题,应用强化学习方法,可解决知识图谱中的存在的上述相关问题,具有重要应用价值. 首先梳理了知识图谱和强化学习的基础知识.其次,对基于强化学习的知识图谱相关研究进行全面综述.再次,介绍基于强化学习的知识图谱方法如何应用于智能推荐、对话系统、游戏攻略、生物医药、金融、安全等实际领域.最后,对知识图谱与强化学习相结合的未来发展方向进行展望.

自谷歌在2012年推出“知识图谱”(knowledge graph,KG)后,知 识 图 谱 技 术 已 迅 速 成 为 数 据 挖 掘、数据库和人工智能等领域的研究热点.知识图谱 采用图 结 构 来 描 述 知 识 和 建 模 事 物 及 事 物 间 关 系[1].它将信息表达成更接近人类认知的形式,提供 了一种组织、管理和认知理解海量信息的能力[2].知 识图谱本质是一种大规模语义网络,既包含了丰富 的语义信息,又天然具有图的各种特征,其中,事物 或实体属性值表示为“节点”,事物之间的关系或属 性表示为“边”.目前,知识图谱相关的知识自动获 取、知 识 推 理、知 识 表 示、知 识 融 合已成为搜索问答、大数据分析[4]、智能推荐[6]和 数据集成[11]的强大资产,被广泛应用于多个行业 领域.

目前,大部分知识图谱的研究是基于监督学习 的方法.然而,为模型获得足够的标注数据成 本较高.为此部分学者提出使用远程监督的方法来 减少数据标注[15],远程监督指的是借助外部知识库 为数据提供标签[16].但远程监督获得的训练样本中 存在噪声.此外,现有方法还存在依赖人工预定义的 规则和先验知识或模型缺乏可解释性等问题.强化 学习(reinforcementlearning,RL)适用于贯序决策 问题,通过学习如何与环境交互,进而辅助人类决 策.它在进行策略选择时更关注环境状态,对行为的 选择进行更好地理解和解释.将知识图谱研究的问 题建模成路径或序列相关的问题,例如,将基于远程 监督的命名实体识别中干净样本的选择建模成序列 标注任务、将关系推理建模成路径查找问题等,应用 强化学习算法可以避免依赖人工预定义的规则或先 验知识,解决模型缺乏可解释性或仅提供事后可解 释性(postGhocexplanation)的问题,具有重要的研 究和应用价值.

近年来,学术界和工业界对知识图谱、强化学习 2个领域进行了深入研究,有不少分别聚焦知识图 谱和强化学习的综述性文章.文献分别围绕知识图谱的表示学习、知识获取、知 识推理、知识图谱构建与应用、多模态知识融合等进 行综述.文献分别对基于价值的和基于策略 的强化学习、深度强化学习算法、多智能体算法进行 综述.文献对强化学习在综合能源管理和金 融交易领域的研究进行阐述.然而,尽管已有诸多的 知识图谱、强化学习综述文献,但仍缺乏对知识图谱 和强化学习相结合的研究进行系统地梳理和总结的 工作.与现有的工作相比,本文工作的不同主要体现 在2个方面:1) 通过系统调研已发表的基于强化学 习的知识图谱相关研究的论文,全面总结了基于强 化学习的知识图谱研究,包括知识抽取、知识推理、 知识表示、知识融合等研究成果.2) 介绍了基于强化 学习的知识图谱如何应用于智能推荐、游戏攻略、生 物医药、金融、网络安全等实际领域.本文是第1篇 系统介绍该研究方向的综述论文.

基于强化学习的知识图谱研究

目前,大多数知识图谱的相关方法基于监督学 习,但对数据进行标注费时费力.为了解决标注困难 的问题,有学者提出了远程监督的方法.远程监督减 少了数据 标 注 成 本,但 又 在 训 练 数 据 中 引 入 了 噪 声[15].虽然,目前知识图谱的研究方法在准确率、精 度、召回率等性能上取得了很好的效果,但这些方法 结果的透明性、可解释性、可信赖性等还有待进一步 研究.强化学习方法不同于一般的监督学习, 它把相关问题建模为序列决策问题,近年来在知识 图谱领域得到应用,可以帮助解决远程监督的噪音 问题、知识推理结果可解释性差[105]等问题.本节将 分别从命名实体识别、关系抽取、知识推理、知识表 示、知识融合等5个方面,详细介绍强化学习方法在 各类研究中的进展,如图3所示:


命名实体识别

**命名实体识别旨在对序列进行命名实体标注, 判断输入句子中的词是否属于人名、地名、组织机构 名等.现有命名实体识别方法依赖人工标注数据,但 标 注 成 本 较 高.远 程 监 督 方 法 可 以 降 低 标 注 成 本[15],但远程监督获得的训练样本中又存在噪声. 强化学习方法可以通过自主学习选择高质量的训练 样本数据,解决上述问题.目前,基于强化学习的命 名实体识别方法思路主要有2类:1)使用深度强化 学习模型自动学习样本选择策略,过滤掉训练数据 中的噪声.2)将命名实体识别任务利用强化学习来 建模,即将序列标注任务转换为序列决策问题.通过 利用 Markov决策过程模型来进行序列标注,即为 序列中的每个元素分配一个标签.

关系抽取

关系可以定义为实体之间或实体与属性之间的 某种联系,关系抽取就是自动识别实体(或实体与属 性)之间具有的某种语义关系.现有关系抽取方法大 多基于神经网络模型[46G54],通过监督学习或远程监 督学习来完成抽取任务.为了降低标注成本,学者们 提出使用远程监督的方法.远程监督方法虽然有效, 但在训练样本中引入了噪声[15].强化学习方法可以 通过知识引导来避免噪声数据带来的影响.基于强 化学习的关系抽取方法主要可以分为3类:1)使用 强化学习模型对抽取结果进行知识验证;2)利用强 化学习模型进行训练样本选择;3)将实体识别与关 系抽取2个任务联合建模,互为增强。

知识推理

知识图谱通常是不完整的.知识推理是指根据 知识图谱中已有的知识,采用某些方法,推理出新的 知识,包括实体预测和关系预测.传统的推理方法, 例如基于规则的推理[55G56]会引入一些人类先验知 识,专家依赖度过高.目前,大部分知识推理是基于 神经网络模型[58G64].神经网络模型通常更关注于推 理结果,模型可解释性、可信赖性有待进一步提升. 除基于规则、基于神经网络的推理方法外,知识 推理问题也可以建模成知识图谱中路径查找问题, 其中节点代表实体,关系代表边.强化学习智能体根 据当前环境(所在节点)通过策略学习或价值函数学 习,来决定下一步的行动(通常为关系或(关系,实 体)),从而完成推理任务.因此,基于强化学习的知 识图谱推理在学术界和工业界得到广泛研究.基于 强化学习的知识图谱推理方法依据智能体的个数可 以分为单智能体推理方法、多智能体推理方法.多智 能体推理方法指至少拥有2个智能体的基于强化学 习的知识推理方法.多智能体之间存在着一定的关 系,如合作、竞争或同时存在竞争与合作的关系.我 们将分别从单智能体推理、多智能体推理2个方面 进行详细介绍.

**知识表示 **

知识图谱 在 表 示 结 构 化 数 据 方 面 非 常 有 效, 但这种三元组的基本符号性质使知识图谱难以操 作[135].为了解决这一问题,提出了知识表示学习[1]. 知识表示学习旨在将知识图谱丰富的结构和语义信 息嵌入到低维节点表示中.目前,常用的知识表示学 习方法[1]有基于翻译模型 Trans系列的方法[69G71]、基 于语义匹配的方法[68G69]、基于神经网络的方法[71G76].基于翻译模型的方法简单易于理解,但是基于翻译 模型的方法不能处理复杂关系,模型复杂度较高.基 于语义匹配的方法需要大量参数且复杂度较高,限 制了其在大规模稀疏知识图谱上的应用.基于神经 网络的方法虽然建模能力较强,但是结果缺乏一定 的可解释性.基于图的随机游走模型[136G138]也是用于 知识表示学习的一类方法.这类方法依赖于人工设 置元路径来捕获图的语义信息.然而,人工设置元路 径需要丰富的专家领域知识,对于大规模、复杂且语 义丰富的知识图谱来说,是一件充满挑战的任务.

**知识融合 **

知识图谱中的知识来源广泛,具有多源、异构等 特点,需要构建统一的大规模知识库来支撑推理和理 解任务.知识融合研究如何将来自多个来源的关于 同一个实体或概念的描述信息融合起来[11],形成高质量统一的知识图谱的一类任务.通常,知识融合包 括本体匹配(ontologymatching)、本体对齐(ontology alignment)、实 体 链 接 (entitylinking)、实 体 消 歧 (entitydisambiguation)、实体对齐(entityalignment) 等.现有的知识融合方法还存在受噪声数据以及对 齐种子对数量的限制[141],或者未能充分建模实体 之间的相互依赖关系等问题.

基于强化学习的知识图谱的应用

知识图谱可以为各领域提供丰富的信息和先验 知识,强化学习方法拥有强大的探索能力和自主学 习能力.基于强化学习的知识图谱相关技术能够降 低噪声数据的干扰、自动选择高质量的样本数据、更 好地理解环境和提供可信解释.因此,基于强化学习 的知识图谱在很多领域得到应用.强化学习与知识 图谱的结合,从结合方式上来看,可以分为2类.1) 将实际问题建模为包含多种节点类型和关系类型的 知识图谱,强化学习在知识图谱上进行探索学习策 略.2) 将知识图谱作为外部信息引入强化学习框架 中,用来指导强化学习的探索过程.我们将介绍如何 将知识图谱与强化学习结合解决实际应用中的问 题,包括智能推荐、对话系统、游戏攻略、生物医药、 金融、网络安全等.

智能推荐

推荐系统常面临数据稀疏、可解释性等问题以及个性化定制、新型推荐任务等新的需求.知识图谱 可以向推荐系统中引入辅助信息,如商品内容、跨领 域信息等.与常用的推荐方法不同,基于强化学习的 知识图谱推荐是在知识图谱中探索图(路径查找)来 找到从用户到商品的有意义的路径.强化学习智能体在探索过程中进行决策,解决数据稀疏,提高推荐 可解释性,使得推荐结果更符合用户需求。

**对话系统 **

自然语言处理领域的一个重要应用就是人机对 话系统,它是人机交互的核心功能之一.计算机想要 顺利无障碍地和人类交流,必须具备丰富的背景知 识以及强大的决策能力,结合背景知识去理解对话 内容,从外部知识库中找出相关的知识并进行推理, 从而生成合适的回答.知识图谱为对话系统提供了 丰富的背景知识,而强化学习可以从相关知识集合 中选出恰当的知识,并且可以利用用户的隐式负反 馈信息,确保对话效果持续稳步提升.

**游戏攻略 **

文字类冒险游戏是一种玩家必须通过文本描述 来了解世界,通过相应的文本描述来声明下一步动 作的游戏.这类游戏中强化学习智能体根据接收到 的文本信息进行自动响应,以实现规定的游戏目标 或任务(例如拿装备、离开房间等).强化学习善于序 列决策,知识图谱善于建模文本的语义和结构信息. 因此,强化学习和知识图谱相结合在文字类冒险游 戏中得到了成功的应用.基于强化学习的知识图谱 方法在进行游戏策略学习时主要思路可分为2类: 1)将游戏状态构建成一张知识图,利用强化学习技 术进行游戏策略学习;2)将知识图谱作为外部知识 辅助强化学习智能体进行决策.

**药物∕疾病预测 **

在生物医药领域,药物合成、新材料发现、疾病 预测等在科技迅速发展的今天显得日益重要,给社会 发展和人们生活带来巨大变化.引入强化学习方法, 可以利用智能体在知识图谱中的自动探索做出最优 决策,同时找到的路径可以为反应物生成或者疾病 预测提供可解释性依据.目前,基于强化学习的知识 图谱技术已经被应用于发现新的药物或材料、化学 反应物预测以及药物组合预测、疾病预测等领域。

未来发展方向

近几年来,针对知识图谱和强化学习的相关研 究已经成为人工智能领域的热点方向.知识图谱可 以同时建模数据的拓扑结构和语义信息,强化学习 是一种从试错过程中发现最优行为策略的技术[84], 适用于解决贯序决策问题.知识图谱与强化学习的 结合有利于提升训练样本质量,还有利于提高可解 释性和可信赖性.但是,强化学习方法在知识图谱领 域应用也存在一些不足,主要表现在2个方面:1)对 强化学习状态的表示,文献[134]提到目前强化学习 状态表示大多使用预训练得到的节点嵌入.然而,当 知识图谱中增加新三元组时,节点的嵌入也需要重 新训练,计算成本较大.文献[126]提到除了结构信 息以外,节点的文本描述信息、层次结构的类型信息 也十分重要.在知识图谱表示学习领域,文献[172] 和文献[173]分别将文本描述信息、关系路径等信 息,用于构建更加精准的知识表示.然而,这些方法 还未广泛应用于强化学习状态的表示中.2)强化学 习的奖励函数设计,与人工定义奖励函数相比,文献 [122]和文献[147]已经开始尝试利用知识图谱中的 信息结合抗性学习来生成自适应的奖励函数.如何 自动生成更合理的奖励函数还有待进一步研究. 目前围绕强化学习与知识图谱结合的研究还处 于起步阶段,有广阔的发展空间.未来值得关注5个 方向:

1)基于强化学习的动态时序知识图谱研究

随着应用的深入,人们不仅关注实体关系三元 组这种简单的知识表示,还需要掌握包括逻辑规则、 决策过程在内的复杂知识.目前基于强化学习的知 识图谱研究主要围绕静态知识图谱.然而,知识随着 时间的推移往往是动态变化的.如何利用强化学习 在解决序列决策问题方面的优势,来建模知识图谱 的动态性,学习知识图谱的变化趋势,解决实际应用 中的复杂问题是一个值得研究的课题.Li等人[174]研 究了动态时序知识图谱的时序推理问题.受人类推 理方式的启发,CluSTeR(cluesearchingandtemporal reasoning)包含线索搜索和时序推理2部分.线索搜 索模块采用随机集束搜索算法,作为强化学习的动 作采样方法,从历史事件中推断多条线索.时序推理 模块使用基于 RGGCN 进行编码,并应用 GRU 进行 时序预测,实现从线索中推理答案.

2)基于强化学习的多模态知识图谱研究

面对越来越复杂多样的用户诉求,单一知识图 谱已不能满足行业需求.多模态数据[11]可以提供更 丰富的信息表示,辅助用户决策,提升现有算法的性 能.目前,基于强化学习的知识图谱研究主要针对文 本数据.如何利用强化学习技术进行多模态知识图谱 的构建与分析仍是一个值得研究的方向.He等人[175] 将强化学习方法应用于视频定位(videogrounding) ,即给定一段文本描述将其与视频片段相匹配的任 务中.He等人将这个任务建模为一个顺序决策的问 题,利用 ActorGCritic算法学习一个 逐步 调节时间 定位边界的代理,完成视频与文本的匹配.

3)基于新的强化学习方法的知识图谱研究

强化学习作为人工智能领域研究热点之一,其 研究进展与成果也引发了学者们的关注.强化学习 领域最近提出了一系列新的方法和理论成果,例如, 循环元强化学习[176]、基于 Transformer的 强 化 学 习[177]、逆强化学习[178]等相关的理论.如何将这些新 的理论方法应用在知识图谱的构建或研究应用中, 值得深入思考.Hou等人[179]在强化学习动作选择中 引入了知识图谱中隐含的规则来约束动作选择,进 一步精简了动作空间,提高了强化学习效率.Hua等 人[180]提出了一种元强化学习方法来进行少样本复 杂知识库问答,以减少对数据注释的依赖,并提高模 型对不同问题的准确性.

4)基于强化迁移学习的知识图谱研究

基于强化学习的知识图谱方法具有一定的可解 释性和准确性.但强化学习不同于监督学习,样本数 据来源于智能体与环境的交互,会导致收集大量无 用且重复的数据,成本较高.一种解决思路是将迁移 学习应用到强化学习中,通过将源任务学习到的经 验应用到目标任务中,帮助强化学习更好地解决实 际问题.文献[164]、文献[170]将迁移学习和强化 学习结合起来,分别应用于同类游戏策略学习以及 动态金融知识图谱构建领域,并取得了不错的效果, 缓解了特定领域因训练数据不足所带来的挑战,提 高了模型举一反三和融会贯通的能力.因此,基于强 化迁移学习的知识图谱研究也是未来一个重要的研 究方向.

5)算法可解释性度量研究 由于知识图谱能够提供实体间的语义和结构信 息,强化学习智能体的学习过程和人类认知世界的 过程比较相似,产生的解释更易于人类理解.因此, 一些研究者利用强化学习和知识图谱开展可解释性的研究.然而,这些研究工作可解释性的效果只能通 过实例分析来进行评测.目前,针对解释性还没有统 一或者公认的衡量标准[84],如何衡量模型的可解释 性是未来需要研究的问题之一.

成为VIP会员查看完整内容
186

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
知识图谱KG在NLP的十年研究进展综述
专知会员服务
117+阅读 · 2022年10月4日
「新一代知识图谱关键技术」最新2022进展综述
专知会员服务
189+阅读 · 2022年9月3日
知识图谱嵌入技术研究综述
专知会员服务
127+阅读 · 2022年2月5日
知识图谱可解释推理研究综述
专知会员服务
169+阅读 · 2021年12月31日
面向知识图谱的知识推理综述
专知会员服务
144+阅读 · 2021年11月1日
开放领域知识图谱问答研究综述
专知会员服务
60+阅读 · 2021年10月30日
基于强化学习的推荐研究综述
专知会员服务
79+阅读 · 2021年10月21日
专知会员服务
146+阅读 · 2021年8月26日
专知会员服务
124+阅读 · 2021年3月13日
基于知识图谱的推荐系统研究综述
专知会员服务
319+阅读 · 2020年8月10日
综述| 当图神经网络遇上强化学习
图与推荐
19+阅读 · 2022年7月1日
ACL2022 | 基于强化学习的实体对齐
专知
1+阅读 · 2022年3月15日
「知识图谱嵌入技术研究」最新2022综述
专知
4+阅读 · 2022年2月5日
知识图谱可解释推理研究综述
专知
3+阅读 · 2021年12月31日
基于知识图谱的推荐系统总结
图与推荐
1+阅读 · 2021年11月11日
万字综述:行业知识图谱构建最新进展
PaperWeekly
16+阅读 · 2020年12月6日
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
论文解读|知识图谱最新研究综述
AINLP
17+阅读 · 2020年5月4日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
35+阅读 · 2017年9月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年10月5日
Arxiv
0+阅读 · 2022年9月30日
Arxiv
33+阅读 · 2021年12月31日
Arxiv
54+阅读 · 2021年5月3日
Arxiv
91+阅读 · 2020年2月28日
VIP会员
相关VIP内容
知识图谱KG在NLP的十年研究进展综述
专知会员服务
117+阅读 · 2022年10月4日
「新一代知识图谱关键技术」最新2022进展综述
专知会员服务
189+阅读 · 2022年9月3日
知识图谱嵌入技术研究综述
专知会员服务
127+阅读 · 2022年2月5日
知识图谱可解释推理研究综述
专知会员服务
169+阅读 · 2021年12月31日
面向知识图谱的知识推理综述
专知会员服务
144+阅读 · 2021年11月1日
开放领域知识图谱问答研究综述
专知会员服务
60+阅读 · 2021年10月30日
基于强化学习的推荐研究综述
专知会员服务
79+阅读 · 2021年10月21日
专知会员服务
146+阅读 · 2021年8月26日
专知会员服务
124+阅读 · 2021年3月13日
基于知识图谱的推荐系统研究综述
专知会员服务
319+阅读 · 2020年8月10日
相关资讯
综述| 当图神经网络遇上强化学习
图与推荐
19+阅读 · 2022年7月1日
ACL2022 | 基于强化学习的实体对齐
专知
1+阅读 · 2022年3月15日
「知识图谱嵌入技术研究」最新2022综述
专知
4+阅读 · 2022年2月5日
知识图谱可解释推理研究综述
专知
3+阅读 · 2021年12月31日
基于知识图谱的推荐系统总结
图与推荐
1+阅读 · 2021年11月11日
万字综述:行业知识图谱构建最新进展
PaperWeekly
16+阅读 · 2020年12月6日
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
论文解读|知识图谱最新研究综述
AINLP
17+阅读 · 2020年5月4日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
35+阅读 · 2017年9月12日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
相关论文
微信扫码咨询专知VIP会员