知识图谱在很多的真实的应用中都起着重要的作用,比如语义搜索、智能问答、文本理解等。通用知识图谱构建中最重要的数据源之一是百科类网站,比如维基百科、百 度百科等。如英文知识图谱 Freebase 最主要的数据源即是维基百科,大型中文通用知识图谱 CN-DBpedia 主要的数据源是百度百科、互动百科等中文类百科网站。知识图 谱相当于是现实世界的知识集合,这些知识并不是恒定不变的而是不断变化的,没有及时更新的知识图谱无法及时地捕获到已经变化的知识以及新出现的知识,而其数据源 百科类网站可以很及时的覆盖新的知识和变化的知识。一个未能及时更新的知识图谱会包含一些过时的知识、甚至是错误的知识,这会对知识图谱的下层应用的产生很大的 限制。因而一个很重要的问题就是如何对知识图谱进行更新,也就是使得知识图谱和其数据源进行同步,这里的数据源只考虑百科类网站。
对于大部分的知识图谱所采用的更新方式周期性批量更新,这种更新方式会有很多的弊端。其中一个弊端是在进行更新时的代价较大,百科类的网站通常会包含千万级别的实体,在每次周期批量更新时会花费大量的时间代价,以及会占用大量的网络带宽。另一个主要的弊端是在周期性更新的周期内,会不断有新知识的出现以及一些变化的知识,也就是周期性的更新方式也会导致知识图谱中包含一些过时的知识。为了解决以上两个问题,本文提出了智能知识图谱更新系统 S-USB,一个更加智能的知识图谱更新方案。
本文提出的智能知识图谱更新系统 S-USB 可以智能的识别出已发生变化的实体并仅更新这些实体。S-USB 的核心部分是一个实体更新频率预测器用于预测实体的更新频率,该实体更新频率预测器主要包括一系列高效的特征和回归器。我们做了一系列实验去检测本文提出的知识图谱智能更新系统 S-USB 以及实体更新频率预测器的效果,实验结果表明本文所提出的知识图谱更新系统 S-USB 可以有效地识别出变化的实体和新出现的实体。特别的,本文所提出的知识图谱智能更新系统已经在一些知识图谱中得到应用落地,其中包括最大中文知识图谱系统 CN-DBpedia。
本文的主要创新点主要有以下几点: