论文浅尝 | 基于表示学习的大规模知识库规则挖掘

2018 年 10 月 2 日 开放知识图谱

链接:www.ict.griffith.edu.au/zhe/pub/OmranWW18.pdf


动机


传统的规则挖掘算法因计算量过大等原因无法应用在大规模KG上。为了解决这个问题,本文提出了一种新的规则挖掘模型RLvLR(Rule Learning via LearningRepresentation),通过利用表示学习的embedding和一种新的子图采样方法来解决之前工作不能在大规模KGscalable的问题。


亮点


文章的亮点主要包括:

1)采样只与对应规则相关的子图,在保存了必要信息的前提下极大减少了算法的搜索空间和计算量;

2)提出了argument embedding,将规则表示为predicate sequence


概念


1.   closed-pathruleLHS记为body(r)RHS记为head(r)

2.     supportdegree of r,满足 r 的实体对个数

3. standard confidencehead coverage

方法


Sampling Method

head predicate Pt为输入,把KG看成无向图,选择到Pt的头尾实体路径长不超过len-1的实体和关系组成子图K’=(E’,F’),后面所有的计算都基于这个子图。

 

argument embedding

 对于谓词P,它的subject argument定义为所有出现在subject上实体的embedding的加权平均,object argument则为尾实体上实体的embedding的加权平均,这个主要用在后面的score function上,即本文引入了共现的信息,对于路径(P1,P2)来说,P1object argumentP2subject argument应该很相似,这里就应用到了下面说的基于argument embeddingscore function

co-occurrence score function

      这个 score function 就是基于上面的 argument embedding,以上图这个长为 3 rule 为例,path p=P1,P2embeddingP1*P2,之前通用的synonymy scoring function就是让 p Pt embedding 相似,再与这个本文提出的co-occurrence scorefunction,结合起来就是最后的score function,下图左边的就是利用了路径的同义信息,即 body(r) predicate embedding path 的乘积应当与 headpredicate embedding 相似。

Rule Evaluation

根据 score function 抽出来的 rule 还要进过筛选,具体做法是先排除掉 support degree 小于 1 rule,再过滤掉 standard confidence<minSChead coverage<minHC rule

 

实验

                                                                  

. 数据集

本文的关注点是 scalable,所以选取做比较的数据集都是大规模知识库

. 实验结果

作者与 AMIE+ 在三个规模较大的知识库上进行了比较,具体做法是随机选取 20 target predicate 进行挖掘,其中 R SC>0.1&HC>0.01 的规则,QCSC>0.7 的规则,结果显示了 RLvLR 在大规模 KG 上的效率和挖掘规则的能力。


总结                                                  


本文提出了一种可以在大规模 KG 上可以以较小计算量进行规则挖掘的模型,减少计算量的方式包括子图采样,argument embedding co-occurrence  score function

 

论文笔记整理:汪寒,浙江大学硕士,研究方向为知识图谱、自然语言处理。

 



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
6

相关内容

表示学习是通过利用训练数据来学习得到向量表示,这可以克服人工方法的局限性。 表示学习通常可分为两大类,无监督和有监督表示学习。大多数无监督表示学习方法利用自动编码器(如去噪自动编码器和稀疏自动编码器等)中的隐变量作为表示。 目前出现的变分自动编码器能够更好的容忍噪声和异常值。 然而,推断给定数据的潜在结构几乎是不可能的。 目前有一些近似推断的策略。 此外,一些无监督表示学习方法旨在近似某种特定的相似性度量。提出了一种无监督的相似性保持表示学习框架,该框架使用矩阵分解来保持成对的DTW相似性。 通过学习保持DTW的shaplets,即在转换后的空间中的欧式距离近似原始数据的真实DTW距离。有监督表示学习方法可以利用数据的标签信息,更好地捕获数据的语义结构。 孪生网络和三元组网络是目前两种比较流行的模型,它们的目标是最大化类别之间的距离并最小化了类别内部的距离。
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
86+阅读 · 2020年5月2日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
133+阅读 · 2020年2月13日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
171+阅读 · 2020年2月13日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
论文浅尝 | 从知识图谱流中学习时序规则
开放知识图谱
7+阅读 · 2019年6月28日
论文浅尝 | 知识图谱三元组置信度的度量
开放知识图谱
24+阅读 · 2019年5月16日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
论文浅尝 | 用可微的逻辑规则学习完成知识库推理
开放知识图谱
14+阅读 · 2018年7月5日
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
30+阅读 · 2019年3月13日
VIP会员
相关资讯
论文浅尝 | 从知识图谱流中学习时序规则
开放知识图谱
7+阅读 · 2019年6月28日
论文浅尝 | 知识图谱三元组置信度的度量
开放知识图谱
24+阅读 · 2019年5月16日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
论文浅尝 | 用可微的逻辑规则学习完成知识库推理
开放知识图谱
14+阅读 · 2018年7月5日
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
相关论文
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
30+阅读 · 2019年3月13日
Top
微信扫码咨询专知VIP会员