在远程监督任务中,除了语料的错误标注问题,还存在句内噪声单词过多的问题,即多数句子都存在一些与表达关系无关的词汇,这个问题未有人关注。当前研究的另一个问题是,句子特征抽取器采用随机初始化的方法,存在不健壮的问题。
针对句内噪声的问题,本文采用子树解析的方法,去除与表达关系不相关的词汇;针对关系抽取器不健壮的问题,本文采用迁移学习的方法,用实体分类对模型的参数做预训练。
本文方法包括三个部分:
(1) 子树解析。首先对句子做句法解析,然后找到两个实体最近的共有祖先,最后取以该节点为根节点的子树,保留句子中的这部分,其余部分丢弃。
(2) 构造含有多个注意力机制的关系抽取器。采用BGRU作为句子语义抽取器,抽取器中添加面向单词的注意力和面向实体的注意力。然后采用面向句子的注意力方法,结合一个实体对对齐的多个句子的信息作为实体对间关系的语义表示,用于后续的关系分类。
(3) 参数迁移初始化。将模型部分结构用于实体类型分类任务,训练得到的参数用作关系抽取器相应参数的初始化。
实验进行了 held-out evaluation 和 manual evaluation,结果如下图所示,可见取得了较好的效果。
笔记整理:刘兵,东南大学计算机博士,研究方向为自然语言处理、信息抽取。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。
点击阅读原文,进入 OpenKG 博客。