论文浅尝 | 基于知识库的类型实体和关系的联合抽取

会员服务 ·

论文浅尝 | 基于知识库的类型实体和关系的联合抽取

2018 年 12 月 9 日 开放知识图谱

链接：http://hanj.cs.illinois.edu/pdf/www17_xren.pdf

GitHub项目地址：https://github.com/INK-USC/DS-RelationExtraction

动机

现有的利用远程监督进行实体关系抽取的方法中存在以下三个问题：

1、依赖事先训练的命名实体识别工具，而这些工具往往只能识别出少量特定类型的实体，从而限制了领域的扩展；

2、现有方法通常将实体识别和关系抽取分开进行，从而容易造成错误的累积。

3、在通过远程监督方式生成的训练数据中，含有大量的噪音数据，因为其在实体和关系的链接过程中均没有考虑到上下文关系。

贡献

该篇论文的主要贡献分为以下四点：

1、提出了一个新的利用远程监督进行实体关系抽取的框架CoType。

2、提出了一种领域无关的文本分割算法，用来进行文本中 entity mentions 的识别。

3、提出了一个联合嵌入目标函数，用来形式化建模mention-type之间的关联、mention-feature之间的共现关系、entity-relation之间的交叉约束关系。

4、在三个公开数据集上取得了state-of-the-art的效果。

问题定义

给定一个POS标注的语料库D,一个知识库Ψ，一个目标实体类型集合，一个目标关系类型集合，联合抽取的目标就是(1)从语料库D中识别出entity mentions M；(2)利用知识库Ψ生成训练数据；(3)利用和上下文，预测每一个relation mentions的关系类型，以及 entity mentions的实体类型。

方法

模型框架图如下图所示，其方法主要分为四个部分：

1、使用文章中提出的 POS 约束的文本分割算法对POS标注的语料库D进行实体识别，识别出 entity mentions M。

2、从M中生成候选 relation mentions Z，并对每一个 relation mention 进行文本特征抽取，抽取的文本特征见下文。

3、通过联合嵌入，将 entity mentions、relation mentions、文本特征、实体关系类型嵌入到两个空间中去（实体空间以及关系空间），使得在每一个空间中，距离比较近的object拥有比较近的类型。

4、通过学习好之后的嵌入空间，评估测试集中每一个 relation mention 的关系类型以及每一个entity mention m 的实体类型。

1、 Entity Mention 抽取

文章提出了一种领域无关的文本分割算法，他的方法是通过计算切片质量函数来衡量这个片段是一个entity mention的概率，该切片质量函数由短语质量和POSpattern质量组成，并利用 D_L 数据来训练该模型的参数。

其工作流程主要分为以下四步：

从语料库 D 中挖掘频繁共同模板，包括短语模板和词性模板，并通过设置阈值的方式，进行模板的初步筛选。
从语料级别的一致性和句子级别的词性特征抽取特征训练两个随机森林分类模型，用于评估候选的短语模板和词性模板的分值。
根据目前的特征权重参数，找到切片质量函数得分最高的片段切割方式。
计算修正特征，更正参数，不断迭代2-4步，直到收敛。

切片评估函数如下：

2、 Relation Mention 抽取

方法如下，对于来自一个句子s的实体对 (m_a,m_b)，构建两个候选relation mentions z_1=(m_a,m_b,s) 和 z_2=(m_b,m_a,s)。在抽取30%无法链接到KB的relation mentions作为反例（None relationlabel）,抽取30%无法链接的entitymentions建模None entity label。然后对relationmention 进行文本特征抽取，文本特征如下。

3、 实体和关系的联合嵌入

该部分方法主要包含三个部分：

通过一个margin-base的loss函数来建模由噪音的mention-type之间的关系。
通过一个second-order proximity idea来建模mention-feature之间的贡献。
通过translation based embedding loss思想来建模实体-关系之间的约束关系。

3.1建模Relation Mentions

假设1：对于两个relation mentions,如果他们共享的文本特征越多，那么他们则更可能具有相似的类别，即在低维空间中比较接近，反之亦然。

形式化的说，文章应用second-orderproximity来建模该假设。

z_i 表示relation mention向量，c_j 表示文本特征向量。p(f_j |z_i) 表示由 z_i 生成 c_j 的概率。w_ij 表示语料库 D 中 (z_i,c_j) 的共现频率。

在基于远程监督生成的训练数据中，一个 relation mention 对应多个候选关系类型，基于假设1，可能会产生不同类型的mention具有相似的低维向量表示。因此需要将relation mention和它候选的标签之间关系是否是真的加入到模型之中，从而提出了假设2。

假设2：一个relation mention在低维空间中应该同它最可能的候选类型比较接近。

形式化定义如下，

Φ(z_i,r' )表示relation 和关系 r' 之间的点积。

最终，建模relation mentions的目标函数如下所示：

3.2 建模Entity Mentions

Entity Mentions 建模过程如 Relation Mentions 几乎相同，其目标函数如下。

3.3 建模Entity和Relation之间的交互

假设3：对于一个relation mention z＝｛m1,m2,s｝，m1的嵌入向量应该近似于m2的嵌入向量加上z的词嵌入向量。

形式化如下所示，

4、 联合优化问题

将上诉三个损失函相加，求他们的最小值。

文章中使用了次梯度方法来求解该联合优化问题，算法如下图所示。

5、 模型推断

在进行推断的过程中，对于关系类别，采用最近邻的方式查找，对于实体的类别，采用自顶向下的方式查找。在查找的过程中，利用特征来表示mention，计算mention的嵌入向量同实体类别和关系类别的相似度即可。

实验

作者在NYT、Wiki-KBP、BioInfer三个数据集上，对实体类型识别、关系分类、关系抽取三个任务进行了实验，取得了比较好的结果。

（1）数据集

（2）实验结果

总结

文本提出了一种领域无关的利用知识库通过远程监督方式进行关系抽取的模型框架，包括了一种领域无关的文本分割算法用于识别实体，一个联合嵌入目标函数用来形式化建模 mention-type之间的关联、mention-feature之间的共现关系、entity-relation 之间的交叉约束关系。

论文笔记整理：王狄烽，南京大学硕士，研究方向为知识图谱、知识获取。

OpenKG.CN

中文开放知识图谱（简称OpenKG.CN）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

转载须知：转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题，请注明原标题。

点击阅读原文，进入 OpenKG 博客。

登录查看更多

相关内容

entity

关注 1

近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文

专知会员服务

85+阅读 · 2020年6月16日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知会员服务

104+阅读 · 2020年6月11日

【WWW 2020 】基于关系对抗网络的低资源知识图谱补全，Relation Adversarial Network for Low Resource Knowledge Graph Completion

专知会员服务

37+阅读 · 2020年6月7日

近期必读的5篇顶会WWW 2020【知识图谱+图神经网络（KG+GNN）】相关论文

专知会员服务

151+阅读 · 2020年4月21日

【WWW2020-人大】通过对抗性学习从用户-项目交互数据中挖掘隐含的实体偏好以完成知识图谱补全

专知会员服务

48+阅读 · 2020年4月1日

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知会员服务

163+阅读 · 2020年3月11日

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

专知会员服务

105+阅读 · 2020年2月20日

【AAAI2020】实体关系联合抽取的编码器-解码器结构的有效建模（ Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relation Extraction）

专知会员服务

53+阅读 · 2019年11月22日

【清华大学博士论文】大规模结构化知识的表示学习、自动获取与计算应用，林衍凯

专知会员服务

136+阅读 · 2019年11月7日

知识图谱本体结构构建论文合集

专知会员服务

110+阅读 · 2019年10月9日

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

开放知识图谱

19+阅读 · 2019年6月4日

论文浅尝 | 基于知识库的自然语言理解 02#

开放知识图谱

8+阅读 · 2019年2月24日

论文浅尝 | 多内容实体和关系联合抽取的对抗训练

开放知识图谱

42+阅读 · 2018年12月4日

经典论文复现 | 基于标注策略的实体和关系联合抽取

PaperWeekly

13+阅读 · 2018年11月23日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

论文浅尝 | 基于多原型mention向量的文本-实体联合学习

开放知识图谱

9+阅读 · 2018年5月3日

论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

开放知识图谱

23+阅读 · 2018年3月6日

【知识图谱】基于神经网络的实体识别和关系抽取联合学习

产业智能官

25+阅读 · 2017年12月6日

基于新标注模式的实体和关系联合抽取方法 | 每周一起读

PaperWeekly

9+阅读 · 2017年6月29日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

Multi-view Knowledge Graph Embedding for Entity Alignment

Arxiv

36+阅读 · 2019年6月6日

KGAT: Knowledge Graph Attention Network for Recommendation

Arxiv

40+阅读 · 2019年5月20日

MMKG: Multi-Modal Knowledge Graphs

Arxiv

30+阅读 · 2019年3月13日

Hypernetwork Knowledge Graph Embeddings

Arxiv

9+阅读 · 2018年10月18日

Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN

Arxiv

3+阅读 · 2018年4月28日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

Generating Triples with Adversarial Networks for Scene Graph Construction

Arxiv

7+阅读 · 2018年2月7日

PEYMA: A Tagged Corpus for Persian Named Entities

Arxiv

5+阅读 · 2018年1月30日

Depth-Adaptive Computational Policies for Efficient Visual Tracking

Arxiv

8+阅读 · 2018年1月1日

VIP会员