随着人工智能研究领域的发展,知识图谱(knowledge graphs, KGs)引起了学术界和工业界的广泛关注。作为实体间语义关系的一种表示,知识图谱在自然语言处理(natural language processing, NLP)中有着重要的意义,近年来得到了迅速的推广和广泛采用。鉴于这一领域的研究工作量不断增加,自然语言处理研究界已经调研了几种与KG相关的方法。然而,至今仍缺乏对既定主题进行分类和审查个别研究流成熟度的综合研究。为了缩小这一差距,我们系统地分析了NLP中有关KGs的文献中的507篇论文。我们的调研包括对任务、研究类型和贡献的多方面。因此,我们提出了一个结构化的研究概况,提供了任务的分类,总结了我们的发现,并强调了未来工作的方向。
https://www.zhuanzhi.ai/paper/d3a164b388877b723eec8789fd081c3d
知识的获取和应用是自然语言固有的特性。人类使用语言作为交流事实、争论决定或质疑信仰的手段。因此,计算语言学家早在20世纪50年代和60年代就开始研究如何将知识表示为语义网络中概念之间的关系(Richens, 1956;Quillian, 1963;Collins和Quillian, 1969)。最近,知识图谱(KGs)已成为一种以机器可读的格式语义表示有关现实世界实体的知识的方法。它们起源于对语义网络、领域特定本体以及链接数据的研究,因此并不是一个全新的概念(Hitzler, 2021)。尽管KG越来越受欢迎,但对于KG究竟是什么,适用于什么任务,人们仍然没有一个普遍的理解。尽管之前的工作已经试图定义kg (Pujara et al., 2013; Ehrlinger and Wöß, 2016; Paulheim, 2017; Färber et al., 2018),该术语尚未被研究人员统一使用。大多数研究都隐含地采用了广义的KGs定义,将其理解为“旨在积累和传递现实世界知识的数据图,其节点代表感兴趣的实体,其边缘代表这些实体之间的关系”(Hogan等人,2022)。
自2012年谷歌的KG引入以来(Singhal, 2012), KG在学术界和产业界都吸引了大量的研究关注。特别是在自然语言处理(NLP)的研究中,使用KGs在过去5年里变得越来越流行,而且这一趋势似乎正在加速。其基本范式是,结构化和非结构化知识的结合可以使各种NLP任务受益。例如,来自知识图谱的结构化知识可以注入到语言模型中发现的上下文知识中,这可以提高下游任务的性能(Colon-Hernandez等人,2021)。此外,随着知识库的重要性日益增加,从非结构化文本中构建新知识库的努力也在不断扩大。
谷歌在2012年创造了知识图谱这个术语,十年之后,学者们提出了大量新颖的方法。因此,重要的是收集见解,巩固现有结果,并提供结构化的概述。然而,据我们所知,目前还没有一项研究对自然语言处理领域中知识分子的整个研究格局进行了概述。为了缩小这一差距,我们进行了一项全面的调研,通过对已建立的主题进行分类,确定趋势,并概述未来研究的领域,分析在该领域进行的所有研究。我们的三个主要贡献如下:1. 我们系统地从507篇论文中提取信息,报告关于任务、研究类型和贡献的见解。2. 本文提供了NLP中关于知识图谱的文献中的任务分类,如图1所示。3.我们评估单个研究流的成熟度,确定趋势,并强调未来工作的方向。本文综述了NLP中知识图谱的演变和目前的研究进展。尽管我们无法完全覆盖该主题的所有相关论文,但我们的目标是提供一个具有代表性的概述,通过提供一个文献起点,可以帮助NLP学者和实践者。此外,多方面的分析可以指导研究界缩小现有差距,并找到如何将KGs与NLP结合的新方法。
KG研究综述结果
**研究整体概况 (RQ1)**对于NLP中有关KGs的文献,我们从研究数量作为研究兴趣的指标开始分析。图2说明了十年观察期间的出版物分布情况。虽然第一批出版物出现在2013年,但年度出版物在2013年至2016年期间增长缓慢。从2017年起,出版物数量几乎每年翻一番。由于这些年来研究兴趣的显著上升,所有纳入的出版物中超过90%来自这五年。尽管增长趋势似乎在2021年停止,但这可能是由于发生在2022年的第一周的数据导出,遗漏了2021年的许多研究,这些研究在2022年晚些时候被纳入数据库。尽管如此,图2中的趋势清楚地表明,KGs正受到NLP研究界越来越多的关注。如果考虑到507篇论文,会议论文(402篇)是期刊论文(105篇)的近4倍。
KG任务概况 (RQ2)
基于NLP中有关KGs的文献中确定的任务,我们开发了如图1所示的经验分类法。这两个顶级类别包括知识获取和知识应用。知识获取包含从非结构化文本构建知识基础(知识图构建)或对已经构建的知识基础进行推理(知识图推理)的NLP任务。知识库构建任务进一步划分为两个子类:知识提取和知识集成,前者用于用实体、关系或属性填充知识库,后者用于更新知识库。知识应用是第二大顶层概念,包含常见的NLP任务,通过知识库中的结构化知识来增强这些任务。 正如预期的那样,我们分类法中的任务在文献中出现的频率变化很大。表2概述了最流行的任务,图5比较了它们随时间的流行程度。图4显示了最突出的任务所检测到的域的数量。它表明某些任务比其他任务更适用于领域特定的上下文。
研究类型及贡献(RQ3)
表3显示了根据附录表4和表5定义的不同研究和贡献类型的论文分布情况。它表明,大多数论文进行验证研究,调查尚未在实践中实施的新技术或方法。相当多的论文,虽然明显较少,侧重于解决方案的提出,通过一个小的例子或论证来证明它们的优点和适用性。然而,这些论文通常缺乏深刻的实证评价。