论文浅尝 | 用异源监督进行关系抽取:一种表示学习方法

2018 年 4 月 8 日 开放知识图谱 刘兵


Citation: Liu, L., Ren, X., Zhu, Q., Zhi, S., Gui, H., Ji, H., & Han, J.(2017). Heterogeneous Supervision for Relation Extraction: A RepresentationLearning Approach. Retrieved from http://arxiv.org/abs/1707.00166

 

动机


现有的关系抽取方法严重依赖于人工标注的数据,为了克服这个问题,本文提出基于异种信息源的标注开展关系抽取模型学习的方法,例如知识库、领域知识。这种标注称作异源监督(heterogeneous supervision),其存在的问题是标注冲突问题,即对于同一个关系描述,不同来源的信息标注的结果不同。这种方法带来的挑战是如何从有噪声的标注中推理出正确的标签,以及利用标注推理结果训练模型。

例如下面的句子,知识库中如果存在<Gofraid,born_in, Dal Riata>这个三元组,则将下面的句子标注为born_in关系;而如果使用人工模板“* killed in*”进行匹配,则会将该句子标注为kill_in关系。

 

Gofraid(e1) died in989, said to be killed in Dal Riata(e2).

 

为了解决这个问题,本文提出使用表示学习的方法实现为关系抽取提供异源监督。

 

创新点


本文首次提出使用表示学习的方法为关系抽取提供异源监督,这种使用表示学习得到的高质量的上下文表示是真实标签发现和关系抽取的基础。

 

方法


文章方法框架如下:

图 关系描述表示方法

 

1)文本特征的向量表示。从文本上下文中抽取出文本特征(基于pattern得到),简单的one-hot方法会得到维度非常大的向量表示,且存在稀疏的问题。为了得到更好的泛化能力,本文采用表示学习的方法,将这些特征表示成低维的连续实值向量;

2)关系描述的向量表示。在得到文本特征的表示之后,关系描述文本依据这些向量的表示生成关系描述的向量表示。这里采用对文本特征向量进行矩阵变换、非线性变换的方式实现;

3)真实标签发现。由于关系描述文本存在多个可能冲突的标注,因此发现真实标签是一大挑战。此处将每个标注来源视为一个标注函数,这些标注函数均有其“擅长”的部分,即一个标注正确率高的语料子集。本方法将得到每种标注函数擅长的语料子集的表示,并以此计算标注函数相对于每个关系描述的可信度,最后综合各标注函数的标注结果和可信度,得到最终的标注结果;

4)关系抽取模型训练。在推断了关系描述的真实标签后,将使用标注的语料训练关系抽取器。

 

值得指出的是,在本方法中,每个环节不是各自独立的,真实标签发现与关系抽取模型训练会相互影响,得到关系上下文整体最优的表示方法。

 

 

实验结果


本文使用 NYT Wiki-KBP 两个数据集进行了实验,标注来源一方面是知识库,另一方面是人工构造的模板。每组数据集进行了包含 None 类型的关系抽取,和不包含 None 类型的关系分类。结果如下表所示,可见本文的方法相比于其他方法,在两个数据集的四组实验中均有较明显的性能提升。


论文笔记整理:刘兵,东南大学博士,研究方向为自然语言处理。

 



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。


点击阅读原文,进入 OpenKG 博客。

登录查看更多
8

相关内容

关系抽取指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及(mention)链接起来的任务。关系提取任务需要在一组工件(通常来自文本或XML文档)中对语义关系提及进行检测和分类。该任务与信息抽取(IE)的任务非常相似,但是IE还需要删除重复关系(消除歧义),并且通常指的是提取许多不同的关系。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
87+阅读 · 2020年5月2日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
近期必读的8篇 AAAI 2020【图神经网络(GNN)】相关论文
专知会员服务
77+阅读 · 2020年1月15日
专知会员服务
54+阅读 · 2019年12月22日
论文浅尝 | 面向单关系事实问题的中文问答模型
开放知识图谱
28+阅读 · 2019年2月11日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
论文浅尝 | 基于多原型mention向量的文本-实体联合学习
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
Learning to See Through Obstructions
Arxiv
7+阅读 · 2020年4月2日
Arxiv
10+阅读 · 2018年4月19日
Arxiv
3+阅读 · 2018年2月22日
VIP会员
相关资讯
论文浅尝 | 面向单关系事实问题的中文问答模型
开放知识图谱
28+阅读 · 2019年2月11日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
论文浅尝 | 基于多原型mention向量的文本-实体联合学习
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
Top
微信扫码咨询专知VIP会员