基于位置注意力机制模型和带标签数据来提升槽填充(EMNLP outstanding paper)
Yuhao Zhang, Victor Zhong, Danqi Chen, Gabor Angeli, Christopher D. Manning
Stanford University, Outstanding paper in EMNLP2017
论文:http://www.aclweb.org/anthology/D/D17/D17-1004.pdf
摘要
自动从自由文本中抽取知识三元组,丰富知识图谱一直以来是NLP领域非常困难的任务。本文从两个方面来推动这个领域的发展(1)提出一个基于位置的attention模型,增强关系抽取模块的性能;(2)通过crowdsourcing建立一个标注TACRED带标签的关系抽取数据,此数据集相比之前数据在数据量和数据全面性上都有了很大的提升。
模型
(1)position-aware attention mechanism,考虑每个词与三元组中Subject和Object中的相对位置,将每个相对位置数值用向量表征,连同词向量作为词表征。使用LSTM模型获得每个词的hidden vectors,然后让最后时刻的hidden vector作为attention中的summary vector对各个时刻hidden vectors做attend操作得到最终的Subject/Object/Relation的表征向量。使用表征向量训练和预测。
(2)the TAC relation extraction dataset,收集了TAC KBP(2009-2015)年的数据集,挑选了100个实体作为queries,在给定的句子中寻找出现在实体集合中的实体,然后对关系和相对应的实体进行标注;同时对错误的正例数据进行过滤。最终得到了119474个三元组。
实验
设置:
(1)在TACRED数据上评测模型效果;
(2)利用TACRED数据上进行训练,在TAC KBP2015 cold start slot filling 任务上去评测。
基准模型:
(1)TAC KBP 2015 winning system,主要由基于模式抽取和logistic regression分类器两部分集成;
(2)CNN-PE,带有位置表征的卷积神经网络;
(3)基于依存关系的循环神经网络。
实现细节(亮点之处):
(1)word dropout,以一定的概率p把的embedding赋值给token,其中p=0.04~0.06;
(2)entity masking,分别将句中subject实体替换成-Subj和object实体替换成-Obj。
结果:
(1)TACRED评测,所有神经网络的方法好于基于模式抽取和logistic regression方法,本文提出的模型比最好的baseline在F1上提升4个点;
(2)TAC KBP Slot Filling,该任务目的在于给定一个实体,给定一个关系要求填充对应实体。将本文的关系判定模型放入系统,系统效果从22.2提升到26.7。
思考
一个工作价值很大程度上取决于是否能对现在存在的重要问题有推动作用,这篇论文很好的诠释这一点。
整体的模型效果还处于一个很低的水平,数据还是populate knowledge graph中最大的瓶颈,如何更好地标注和创建数据依然是突破点。