「新一代知识图谱关键技术」最新2022进展综述

2022 年 9 月 3 日 专知

近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一定进展,以知识图谱为载体的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手等．然而,在大数据环境和新基建背景下,数据对象和交互方式的日益丰富和变化, 对新一代知识图谱在基础理论、体系架构、关键技术等方面提出新的需求,带来新的挑战．将综述国内外新一代知识图谱的关键技术研究发展现状,重点从非结构化多模态数据组织与理解、大规模动态图谱表示学习与预训练模型、神经符号结合的知识更新与推理３方面对国内外研究的最新进展进行归纳、比较和分析．最后,就未来的技术挑战和研究方向进行展望。

https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20210829

伴随着过去１０年浪潮,人工智能发展方兴未艾,正处于由感知智能到认知智能转变的关键时期．知识图谱作为大数据时代的知识工程集大成者,是符号主义与连接主义相结合的产物,是实现认知智能的基石．知识图谱以其强大的语义表达能力、存储能力和推理能力,为互联网时代的数据知识化组织和智能应用提供了有效的解决方案．因此,新一代知识图谱的关键技术研究逐渐受到来自工业界和学术界的广泛关注．

知识图谱最早于２０１２年由 Google 正式提出[１],其初衷是为了改善搜索,提升用户搜索体验．知识图谱至今没有统一的定义,在维基百科中的定义为:“Google知识图谱(Googleknowledgegraph) 是 Google的一个知识库,其使用语义检索从多种来源收集信息,以提高 Google搜索的质量．”从当前知识图谱的发展看来,此定义显然是不够全面的,当前知识图谱的应用俨然远超其最初始的搜索场景,已经广泛应用于搜索、问答、推荐等场景中．比较普遍被接受的一种定义为“知识图谱本质上是一种语义网络(semanticnetwork),网络中的结点代表实体 (entity)或者概念(concept),边代表实体∕概念之间的各种语义关系”．一种更为宽泛的定义为“使用图 (graph)作为媒介来组织与利用不同类型的大规模数据,并表达明确的通用或领域知识”．从覆盖的领域来看,知识图谱可以分为通用知识图谱和行业知识图谱;前者面向开放领域,而后者则面向特定的行业．随着知识图谱在各行业的应用落地,知识图谱技术的相关研究得到了大量研究者的关注．以知识图谱为基础的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手、战场指挥系统等．

传统的知识图谱研究领域主要围绕传统的数据存储、知识获取、本体融合、逻辑推理以及知识图谱应用等方面．文献[２]详细综合和分析了知识图谱存储管理最新的研究进展．文献[３]从知识表示学习、知识获取与知识补全、时态知识图谱和知识图谱应用等方面进行了全面的综述．文献[４]则重点对面向知识图谱的知识推理相关研究进行了综述．

然而,在大数据环境和新基建背景下,数据对象和交互方式的日益丰富和变化,对新一代知识图谱在基础理论和关键技术等方面提出新的需求,也带来新的挑战．和已有的知识图谱研究综述相比,本文将从众多最新的知识图谱研究方法中,对３方面的新一代知识图谱关键技术和理论做分析:１)非结构化多模态数据组织与理解; ２)大规模动态图谱表示学习与预训练模型; ３)神经符号结合的知识更新与推理．本文将综述国内外新一代知识图谱关键技术研究发展现状,对国内外研究的最新进展进行归纳、比较和分析,就未来的技术挑战和研究方向进行展望．

1. 非结构化多模态数据组织与理解

1.1 非结构化多模态数据组织

“模态”的定义较多,可以直观地理解为不同类型的多媒体数据,也可以作为一个更加细粒度的概念,区分模态的关键点可以理解为数据是否具有异构性．例如,对于某个歌手,互联网上可以找到他的照片和歌曲视频,同时也有相关的文本信息(百科、新闻等)以及具体的歌曲音频．图片、视频、文本、语音这４种数据,可以被理解为该对象的多模态数据．目前主要的非结构化多模态知识图谱如表１所示:

DBpedia [５]作为近１０年来知识图谱研究领域的核心数据集,其丰富的语义信息中也包含了大量的非结构化数据,如文本描述和实体图片．目前 DBpedia包含了超过２６０万个实体,且每个实体具有唯一的全局标识符．以此为基础,越来越多的数据发布者将自己的数据通过 SameAs 关系链接到 DBpedia资源,使 DBpedia一定程度上成为多类型数据组织的中心．目前,围绕 DBpedia的互联网数据源网络提供了约４７亿条信息,涵盖地理信息、人、基因、药物、图书、科技出版社等多个领域．

Wikidata [６]中也存在大量的多模态数据资源, 它是维基媒体基金会(WikimediaFoundation)推出的知识图谱,也是维基媒体数据组织和管理的核心项目．Wikidata充分利用了知识图谱的图数据模型, 综合了 Wikivoyage,Wiktionary,Wikisource等各类结构化和非结构化数据,其目标是通过创造维基百科全球管理数据的新方法来克服多类数据的不一致性,已经成为维基媒体最活跃的项目之一,越来越多的网站都从 Wikidata获取内容以嵌入提供的页面浏览服务． IMGPedia [７]是多模态知识图谱的早期尝试．相较于 DBpedia和 Wikidata,其更关注在已有的知识图谱中补充非结构化的图片信息．

IMGPedia的核心思路是首先提取 WikimediaCommons中的多媒体资源(主要是图片),然后基于多媒体内容生成特征用于视觉相似性的计算,最后通过定义相似关系的方式将图片内容信息引入到知识图谱中,此外其还链接了 DBpedia和 DBpediaCommons来提供上下文和元数据．IMGPedia的优势在于开创性地定义了知识图谱中图像内容的“描述符”,也就是视觉实体属性(诸如灰度等),同时根据这些描述符去计算图片相似度,方便人们进行相似图片的查找．但 IMGPedia中定义的“描述符”种类较少,且图片之间的关系单一．

MMKG [８]项目旨在对不同知识图谱(Freebase, YAGO,DBpedia)的实体和图片资源进行对齐．其通过对３个知识图谱(Freebase１５k,YAGO１５k,DB１５k, 均为从原始的知识图谱中获得的知识图谱子集)进行实体对齐,以及数值、图片资源与实体的绑定,构建了一个包含３个知识图谱子集的多模态数据集合．MMKG 包含的３个知识图谱既有诸多对齐的实体,又有各自不同的拓扑结构．值得一提的是,MMKG 的目标并非是提供一个多模态知识图谱,而是定义一个包含多模态信息的评估知识图谱实体对齐技术的基准数据集．但是其本质上还是以传统的知识图谱为主,规模很小同时也没有充分收集和挖掘互联网上多种类型的多模态数据,在将图像分发给相关文本实体时也未曾考虑图像的多样性．

KgBench [９]和 MMKG 类似,在 RDF 编码的知识图谱上引入了一组新的实体分类基准多模态数据集．对于多个知识图谱基准实体分类任务,提供至少１０００个实例的测试和验证集,有些实例超过１００００个,每个实例包含了多种模态的数据描述和特征．每个任务都能够以知识图谱结构特征进行评估,或者使用多模态信息来实验．所有数据集都以 CSV 格式打包,并提供 RDF格式的源数据和源代码．东南大学的 Wang等人[１０]提出的多模态图谱 Richpedia,是目前国内在多模态知识图谱领域的代表工作．其核心思路延续了知识图谱的基本数据模型,在 RDF框架下对现有的知识图谱进行扩充(主要是包含视觉信息的图片实体),使其变为多模态知识图谱．相较之前的多模态知识图谱,该工作的最大贡献在于收集与实体相关图片的同时,利用图片的配文来识别图片中所包含的其他实体,进而在跨模态实体之间的语义关系发现方面取得了显著效果提升．

西安交通大学的郑庆华等人[１１Ｇ１２]提出了知识森林的概念,旨在针对智慧教育领域的多模态数据,实现基于知识森林数据模型的组织与个性化导学．知识森林的特点在于针对教育领域的垂域特点,用自然语言处理、图像识别等人工智能技术突破了教育领域给定课程科目的知识森林自动构建,研制了知识森林 AR 交互系统,缓解学习过程中人机可视化交互难题．知识森林的多模态类型不再局限于文本和图像的范畴,增加了与视频数据交互的能力．

百度知识图谱近年来也逐渐向多模态知识图谱演变．基于海量互联网资源,百度构建了超大规模的通用知识图谱,并随着文本、语音、视觉等智能技术的不断深入,以及行业智能化诉求的提升,百度近年来一直致力于知识图谱在复杂知识表示、多模态语义理解、行业图谱构建和应用,其挖掘的多模态知识在图文视频的基础上,加入了更多语音数据来丰富多模态知识图谱的内容．

1.2 多模态数据理解

多模态数据理解旨在实现处理和理解不同模态信息之间共同表达语义的能力．整体上,和知识图谱相关的多模态数据的理解主要分为基于本体的多模态语义理解和基于机器学习的多模态语义理解．基于本体的多模态语义理解是比较早期的工作,均和知识图谱相关,其主要活跃于深度学习的浪潮兴起之前,代表性的工作为 LSCOM(largeＧscaleconcept ontologyformultimedia)[１３]和COMM(coreontology formultimedia)[１４]． LSCOM [１３]是一个由 IBM、卡内基梅隆大学 (CarnegieMellonUniversity,CMU)和哥伦比亚大学领导开发的多模态大规模概念本体协作编辑任务．在这项工作中,CyC公司与很多学术研究和工业团体均有参与．其整个过程包含了一系列学术研讨会,来自多个领域的专家聚集在一起,创建了描述广播新闻视频的１０００个概念的分类．LSCOM 中对多模态数据的实用性、覆盖率、可行性和可观察性制定了多个标准．除了对１０００个概念进行分类外, LSCOM 还生成了一组用例和查询,以及广播新闻视频的大型注释数据集． COMM [１４]是由德国、荷兰以及葡萄牙的研究团队联合推出的多模态本体,其诞生的主要动机在于 LSCOM 为多模态数据语义分析研究创建了一个统一的框架,但并没有一个高质量的多模态本体正式描述,也缺乏与已有的语义 Web技术兼容．针对此问题,COMM 定义了一个基于 MPEGＧ７的多模态本体,由多模态数据模式组成,满足了本体框架的基本要求,并且在 OWLDL 中完全形式化．基于本体的多模态语义理解要求高质量的本体编辑以及精细粒度的数据描述,因此 COMM 和 LSCOM 并没有很好地发展起来．

基于机器学习的多模态语义理解[１５]是目前多模态数据理解的主流方法,和知识图谱的联系主要是利用多模态表示学习方法实现知识补全或应用到下游任务中．多模态表示学习是指通过利用不同多模态数据之间的互补性,剔除模态冗余性,从而将多模态数据的语义表征为实值向量,该实值向量蕴含了不同模态数据的共同语义和各自特有的特征,如图１所示．代表性的工作如 Srivastava等人[１６]通过深度玻尔兹曼机实现图像和文本的联合空间生成, 在此基础上实现多模态数据的统一表示．

多模态知识图谱表示学习的代表性工作是 MoussellyＧSergieh等人[１７]将视觉特征、文本特征和知识图谱的结构特征共同学习成统一的知识嵌入, 在此过程中使用 SimpleConcatenation,DeViSE,Imagined这３种不同的方法来集成多模态信息,最终实现了知识图谱的多模态表示学习,生成了蕴含多种模态特征的知识图谱实体和关系实值向量,相较于传统的基于结构的知识图谱表示学习,其在链接预测和实体分类任务上的效果均有提升．

GAIA [１８]是最近提出的一个细粒度的多模态知识抽取、理解和组织框架,旨在提取不同来源的异构多媒体数据(包括多模态、多语言等),生成连续的结构化知识,同时提供一个丰富的细粒度的多模态数据描述本体．GAIA 整个系统主要有３个优势:１)大量使用计算机视觉和自然语言处理的深度学习框架和其他知识图谱算法作为其底层模块,通过结合不同领域的技术实现了特别是对于图片资源的实体识别和多模态实体链接,相较于之前的IMGPedia,这样的处理保证了对图片内容细粒度识别的进一步深入,而对于文本资源,也实现了实体识别和关系抽取．２)相较于粗粒度的实体,细粒度可以保证内容查询的灵活性和更强的易用性,例如对场景的理解和事件预测,故可以更广泛地用于实际应用中．３)通过将图片和文本实体进行实体链接、关系抽取等处理, 实现了多模态知识融合和知识推理,充分利用了多模态的优势．GAIA 所提出的多模态知识图谱提取框架是当前比较全面的一种范式,有着较好的借鉴意义．

北京大学的 Peng等人[１９]提出了跨媒体智能的概念,该概念和多模态数据理解的思路类似,其借鉴人脑跨越视觉、听觉、语言等不同感官信息认知外部世界的特性,重点研究了跨媒体分析推理技术中的任务和目标,包括细粒度图像分类、跨媒体检索、文本生成图像、视频描述生成等．其代表性的工作为 PKU FGＧXmedia [２０],是第１个包含４种媒体类型(图像、文本、视频和音频)的细粒度跨媒体检索公开数据集和评测基准,并且在此基础上提出了能够同时学习４种媒体统一表征的深度网络模型 FGCrossNet．

中国科学院自动化研究所的张莹莹等人[２１]提出了一个基于多模态知识感知注意力机制的问答模型．该模型首先学习知识图谱中实体的多模态表示; 然后从多模态知识图谱中与问答对相关联的实体的路径来推测出回答该问题时的逻辑,并刻画问答对之间的交互关系．此外,该模型还提出了一种注意力机制来判别连接问答对的不同路径之间的重要性．

清华大学的 Liu等人[２２]最早在多模态知识图谱表示学习方面开展了研究,代表性的工作是IKRL, 其将视觉特征和知识图谱的结构特征进行联合表示学习,进而通过不同模态信息之间的约束生成质量更高的知识图谱嵌入．华南理工大学的 Cai等人[２３]提出一种结合图像信息和文本信息的神经网络来对 Twitter等短文本中的实体进行识别和消歧．其核心思想是将视觉和文本信息通过表示学习生成的嵌入连接起来,并且为细粒度的信息交互引入了共同关注机制．在 Twitter数据集上的实验结果表明,其方法优于单纯依赖文本信息的方法．中国科学技术大学的 Xu等人[２４]在多模态信息理解与关联方面探索了如何有效联合映射与建模跨模态信息,进而从视频概括性描述深入至实体间语义关系,实现视觉元素多层次、多维度语义理解与关联,以形成对视频等多模态内容更为全面的解析,有效解读其中的语义信息,进而为支撑面向多模态内容的智能应用服务奠定重要基础．其代表性的工作为 MMEA [２４],针对多模态知识图谱的实体对齐问题,设计了一种多视图知识嵌入方法,实现多模态知识图谱实体对齐效果的提升．

国防科技大学的 Zhao等人[２５]在多模态知识图谱的实体对齐任务上进一步进行了探索,其主要将多模态实体对齐任务从欧氏空间拓展到了双曲空间进行建模表示,最终利用双曲空间内的图卷积网络和视觉特征抽取模型 DENSENET 实现了多个数据集上的实体对齐效果．

２大规模动态图谱表示学习与预训练模型

2.1 大规模动态表示学习

知识图谱的本质是一种语义网络,亦是一种特殊的图．动态知识图谱同样是一种特殊的动态图．但是因为知识图谱的特殊性,动态知识图谱可以被分为２类:一类是时序动态知识图谱,其中蕴含着时间特征,知识图谱的结构、实体和关系都会随着时间的推移发生改变;另一类是非时序动态知识图谱,这类知识图谱中没有显式的时间特征,但是知识图谱会发生更新,有新的实体和关系添加到原有的知识图谱中．一般情况来说,已存在知识图谱中的实体和关系不会发生改变．

１)时序的动态知识图谱表示学习

时序知识图谱是一种特殊的知识图谱,其相比传统的静态知识图谱多了时间信息,知识图谱中的知识不是静态不变的,反而是因为时间的变化,知识三元组发生改变．如表２中所总结,我们根据其对时间信息处理方式的差异将所有算法模型分为三大类:具有时间约束的历时性时序知识图谱表示模型、基于时间序列编码的时序知识图谱表示模型和基于路径推理的时序知识图谱表示模型．其中在各通用数据上表现最佳的模型为２０２１年Zhu等人[２６]提出的 CyGNet,其模型结构如图２所示．

２) 非时序的动态知识图谱表示学习

对于非时序动态知识图谱,其在应用和更新过程中,可以加入新的实体和关系,新实体与原有实体构成的三元组只要在现实应用场景下为正确的,则可将此三元组纳入到原有的知识图谱中．所以非时序动态知识图谱的规模是可以随着现实情况不断增大的, 被认为是一种动态变化的知识图谱．针对非时序知识图谱,其中最初的模型是在原有的 DKRL模型[３４]上进行简单的更改,直接应用于开放世界知识图谱上, 其效果相比其他静态的算法有所提高,成为了这个任务的一个基准结果,其模型基础框架如图３所示． DKRL的优势不仅在于提升了实体表示的区分能力,而且更在于其对新实体的表示,当一个未在知识图谱中出现的新实体出现时,DKRL 将根据新实体的简短描述生成它的表示,用于知识图谱补全．

Shi等人[３５]提出了一种以文本为中心的表示方法 ConMask,其中头实体、关系和尾实体基于文本的向量表示是通过注意力模型在名称和描述上得出的,并且通过全卷积神经网络 (fullyconvolutional neuralnetwork)得到三元组的评分,最后通过评分完成实体与关系的预测． Shah等人[３６]提出了区别于 DKRL和 ConMask 这２种方法的新模型 OWE,其独立地训练知识图谱和文本向量,然后通过缺失实体的描述文本向量模糊代替实体的表示,在知识图谱中进行匹配,最终得到实体与关系的预测结果．该模型可以调整和选用不同的基础知识图谱表示模型得到不同的融合模型,在不同环境任务中发挥更好的作用． Wang等人[３７]提出了一种基于胶囊网络的新模型 CapsＧOWKG,其在融合知识图谱的结构信息和描述信息后,采用胶囊网络提取三元组的特征,得到动态非时序知识图谱三元组的表示．Gaur等人[３８]提出了一个框架 HUKA,它使用起源多项式通过编码生成答案所涉及的边来跟踪知识图谱上查询结果的推导． Das等人[３９]证明了基于案例的推理(caseＧbased reasoning,CBR)系统通过检索与给定问题相似的 “案例”来解决一个新问题是可以实现动态知识库 (KBs)．其通过收集知识库中相似实体的推理路径来预测实体的属性．概率模型估计路径在回答关于给定实体的查询时有效的可能性．在国内,最初的模型是在 Xie等人[３４]提出的 DKRL模型上进行简单的更改,直接应用于开放世界知识图谱上,其效果相比其他静态的算法有所提高,成为了这个任务的一个基准结果．杜治娟等人[４０]提出一种表示学习方法 TransNS．其选取相关的邻居作为实体的属性来推断新实体, 并在学习阶段利用实体之间的语义亲和力选择负例三元组来增强语义交互能力．Xie等人[４１]提出了一种基于深度递归神经网络 DKGCＧJSTD的动态知识图谱补全模型．该模型学习实体名称及其部分文本描述的嵌入,将看不见的实体连接到知识图谱．为了建立文本描述信息与拓扑信息之间的相关性,DKGCＧJSTD 采用深度记忆网络和关联匹配机制,从实体文本描述中提取实体与关系之间的相关语义特征信息．然后利用深度递归神经网络对拓扑结构与文本描述之间的依赖关系进行建模． Zhou等人[４２]提出了一种聚合器,采用注意网络来获取实体描述中单词的权重．这样既不打乱词嵌入中的信息,又使聚合的单词嵌入更加高效． Niu等人[４３]使用多重交互注意(MIA)机制来模拟头部实体描述、头部实体名称、关系名称和候选尾部实体描述之间的交互,以形成丰富的表示．此外,还利用头部实体描述的额外文本特征来增强头部实体的表示,并在候选尾部实体之间应用注意机制来增强它们的表示．

2.2 知识图谱的预训练模型

知识广泛存在于文本、结构化及其他多种模态的数据中．除了通过抽取技术将知识从原始数据中萃取出来以支持搜索、问答、推理、分析等应用以外, 另外一种思路是利用数据中本身存在的基本信号对隐藏的知识进行预训练．预训练的核心思想是“预训练和微调”,例如预训练一般包含２个步骤:首先利用大量的通用知识数据训练一个知识模型,获取文本中包含的通用知识信息;然后在下游任务微调阶段,针对不同下游任务,设计相应的目标函数,基于相对较少的监督数据进行微调,便可得到不错的效果．近２年对面向知识表示、面向自然语言、面向下游任务和基于图结构的预训练模型这４类有所进展,代表性模型如表３所示:

１) 面向知识图谱表示的预训练模型

在词向量表示中,预训练模型分为２个部分,分别是预训练与微调,这样的模式可以使词向量表示更适合于不同的应用环境．同样地,在面向知识表示的预训练模型中,同样先采用预训练的向量表示,然后再基于此进行进一步的深化挖掘．这类预训练模型,旨在通过引入新的处理方法对预训练的知识表示进行进一步的特征挖掘,以此可以得到原有表示不具备的特征,如 ConvKB [４４],CapsE [４５]等．这类模型不能最大化地提取三元组的特征,模型预训练效果依赖于基础知识图谱表示学习模型的选择．

２) 面向自然语言问题的预训练模型

知识图谱在处理与自然语言相关的任务时,必不可少地与语言模型相互联系．这一类预训练模型, 主要是将知识融合到一个词向量模型中形成一个既包含知识又具备上下文信息的预训练词向量．近几年的相关研究主要是将知识融合到BERT 中形成新的预训练模型．典型的模型有:CMU 和微软联合提出的 JAKET [４６]、清华大学和华为联合提出的 ERNIE [４７]、北京大学和腾讯联合提出的模型 KＧBERT [４８]、复旦大学和亚马逊提出的 CoLAKE [４９]、清华大学和 Mila 实验室提出的 KEPLER [５０]等．这类模型利用实体信息增强了预训练效果并减少了训练时间,但不适用于缺少实体相关描述的预训练任务．

３) 面向下游任务的预训练模型

知识图谱预训练模型还可以通过不同的特殊下游任务来帮助向预训练模型融入任务相关的知识．主要方法是在对具体的下游任务进行微调时,可以采用不同的适配器来针对性地加入特征,进而增强其效果．代表性的工作有复旦大学和微软提出的 KＧ ADAPTER [５１]和阿里巴巴实验室提出的“预训练＋知识向量服务”的模式 PKGM [５２],结构如图４所示．这类模型需要尽可能大且全量的知识图谱数据集, 这样才能发挥模型预训练的优势,因此模型对于图谱完成性差、稀疏度高的知识图谱预训练较差．

４) 基于图谱中图结构的预训练模型

知识图谱是一种特殊的信息图,可以通过适用于图的方法 GNN 获取知识图谱的部分结构特征．图神经网络(graphneuralnetworks,GNNs)已被证明是建模图结构数据的强大工具,然而,训练 GNN 模型通常需要大量的特定任务的标记数据,而获取这些数据往往非常昂贵．利用自监督 GNN 模型对未标记数据进行预训练是减少标记工作的一种有效方法,预训练学习到的模型可用在只有少量标签图谱数据的下游任务中．代表性的工作有:GPTＧ GNN [５３],GI [５４],GraphCL [５５],GCC [５６]等．这类方法不依赖于图谱的节点与边信息,仅利用图结构进行预训练,避免复杂的特征工程,但缺陷是耗时巨大．

３神经符号结合的知识更新与推理

ACM 图灵奖获得者 YoshuaBengio在 NeuIPS ２０１９的特邀报告中明确提到,深度学习需要从系统１到系统２转化．这里所说的系统１和系统２来源于认知科学中的双通道理论,其中系统１可以理解为神经系统,它表示直觉的、快速的、无意识的系统;系统２可以理解为符号系统,它表示慢的、有逻辑的、有序的、可推理的系统．Bengio所提的系统２关于深度学习的想法与“神经＋符号”的知识表示与推理目标基本一致．神经系统优势在于能够轻松处理图像识别、文本分类等一类机器学习擅长的问题,模型能够允许数据噪音的存在,但缺点在于其端到端的过程缺乏可解释性,并且在模型求解答案过程中难以嵌入已有的人类知识．相反地,符号系统可以完美地定义各类专家经验规则和知识,形成对结构化数据的各类原子操作,在此基础上通过搜索和约束进行求解,整个过程的解释性和可理解性也很强．但是, 符号系统的缺点在于难以处理很多拥有异常数据和噪音的场景．然而,“神经＋符号”到底如何有机结合, 实现起来并不容易．知识图谱从早期的知识库、专家系统,到谷歌２０１２年正式提出知识图谱,其发展历程也体现了神经系统和符号系统的各自发展缩影, 整体上可分为神经助力符号和符号助力神经两大类．

3.1 神经助力符号推理

神经助力符号推理方法的特点在于将神经的方法应用在传统符号系统的问题求解,通常主要是解决浅层的推理问题,其核心在于如何将神经系统学到的“浅层知识表示”(计算结构和连续型数值表示的知识)更新到已有的符号知识体系中(离散的、显式的符号化知识)，敏捷逻辑(swiftlogic)是牛津大学 Gottlob等人[５７]关于“神经＋符号”的尝试,如图５所示,该系统既能够执行复杂的推理任务(以 Datalog ± 语言为理论基础),同时在可接受的计算复杂度下,利用神经网络在大数据上实现高效和可扩展的推理．此外,敏捷逻辑还定义了与企业数据库、网络、机器学习和分析软件包的接口,以实现与数据库和人工智能中不断出现的新技术相结合．敏捷逻辑的特点是不局限于模型层面的结合,更关注从知识图谱管理系统框架层面来使用神经和符号多种技术．

3.2 符号助力神经计算

符号助力神经方法的特点在于将符号的方法应用在神经网络的训练过程中．

3.3 神经符号结合的知识表示与推理

一个完美的“神经＋符号”系统的特点和优势为:１)能够轻松处理目前主流机器学习擅长的问题; ２)对于数据噪音有较强的鲁棒性;３)系统求解过程和结果可以被人容易地进行理解、解释和评价;４)可以很好地进行各类符号的操作;５)可以无缝地利用各种背景知识．从以上标准来看,实现神经符号知识表示的充分结合还有很长一段路要走．国外目前最具代表性的研究为 Cohen等人[９１]和 Lamb等人[９２] 的研究工作． Cohen [９１]作为人工智能领域的重要学者,近年来发表了一系列的神经符号结合的研究工作,其中典型工作 DrKIT 的整体框架如图６所示．DrKIT 使用语料库作为虚拟的知识图谱,进而实现复杂多跳问题求解．DrKIT 采用传统知识图谱上的搜索策略进行文本数据的遍历,主要是遵循语料库中包含文本提及实体之间的关系路径．在每个步骤中,DrKIT 使用稀疏矩阵 TF∕IDF 索引和最大内积搜索,并且整个模块是可微的,所以整个系统可使用基于梯度的方法从自然语言输入到输出答案进行训练．DrKIT 非常高效,每秒比现有的多跳问答系统快１０~１００倍,同时保持了很高的精度．

４研究进展比较

4.1 非结构化多模态数据组织与理解

在非结构化多模态数据组织方面,多模态知识图谱目前已经成为国内外学者对于多种类型数据组织的共识,国内外的学者均有新的研究成果．对于国外研究团队而言,其核心思路依然是从维基百科中抽取已有知识图谱的多模态数据资源,而国内研究团队将范围扩展到了通过全域的数据资源来补充已有知识图谱中的视觉和文本信息．可以看出,对于知识图谱而言,开放域的非结构化数据资源丰富,但是如何同已有结构化的图谱融合并建立不同模态数据之间的语义关联是关键．此外,国内研究团队面向垂直领域(智慧教育)提出了系统级的研究工作,这一点要比国外的研究更具有落地思维,可以预见未来国内在更多垂域会出现以多模态知识图谱为基础的系统和应用．在多模态数据理解方面,受益于深度学习技术的持续发展,国内外在该领域都取得了最新的研究成果．可以看出,国内研究人员已经可以从延续他人工作转变为开辟新的研究领域,这一点说明国内在该领域走在世界学术前沿．值得一提的是,国内学者在知识图谱驱动的多模态数据理解方面同样具有较强的应用落地思维,分别面向推荐系统等垂直场景进行了探索尝试．

4.2 大规模动态知识图谱表示学习与预训练

在大规模动态表示学习方面,国内外均有新的研究成果,在不同的方向有所突破．国外在序列模型编码方法上有更多模型被提出,对 GCN,GNN 等类型的编码器进行了改进,在动态表示方面取得了更好的结果;而国内主要的工作集中在基于分解、基于历时性编码和基于随机游走改进３个方面,虽然与国外的方法思路不同,但是在动态表示方面也有亮点和突出表现．知识图谱预训练是近两年的一个热点方向,国内外很多研究机构都针对此方面有所研究并做出了突破．国外在图谱表示的预训练方面有一些新的工作,并在基于知识图谱图结构的预训练方面有更多的进展．而国内,基于自然语言方面的知识预训练有更多的新模型产生,诸如北京大学、清华大学等学校,百度等企业均在这方面有新的研究成果产生．尤其是面向基于大规模知识下游任务的预训练模型,有了重大突破,对数以１０亿计规模的知识进行了预训练,并应用于阿里电商平台,为商品推荐、语义搜索和智能问答等下游任务提供支持．

4.3 神经符号结合的知识表示与推理

在神经助力符号方面,国内外均有新的研究成果．通过比较可以看出,国外研究团队在知识图谱表示学习技术的初期走在该领域的前沿,提出了一系列开创性的工作;国内的研究团队主要针对各类模型和数据特点进行改进,在后期逐渐提出了创新性更高和实用性更强的工作,尤其是知识图谱表示学习技术在其他任务(如智能问答、近似搜索、推荐系统、实体对齐、社交网络等)中有效地使用,国内研究团队走在学术的前沿,可以看出国内学者更倾向于应用层级的研究．除此之外,在逻辑推理等偏理论的模型中如何引入神经网络,国内研究工作还不多．在符号助力神经方面,国内外都走在学术的前沿．在神经符号结合方面,谷歌公司依然走在世界的最前沿, 提出了一系列开创性工作,国内这方面的工作还偏少．不过整个神经符号的有机结合还属于初期探索领域,随着越多的研究者开始关注,未来我国研究团队还有很大的提升空间．

总结

本文围绕支撑新一代知识图谱的关键技术研究进展与趋势展开系统性论述,内容包括:非结构化多模态图谱组织与理解、大规模动态图谱表示学习与预训练模型、神经符合结合的知识表示与推理．在此基础上,给出了国内与国际的当前研究进展,并对国内外研究进展进行比较．最后对这些关键技术的发展趋势进行了展望．

专知便捷查看