主题: Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relation Extraction
摘要:
关系元组由两个实体和它们之间的关系组成,通常在非结构化文本中可以找到这样的元组。文本中可能有多个关系元组,它们可能共享一个或两个实体。从一个句子中提取这样的关系元组是一项困难的任务,而在元组之间共享实体或重叠实体使其更具挑战性。之前的大多数工作都采用了流水线方法,首先识别实体,然后查找它们之间的关系,从而忽略了句子中关系元组之间的交互。在本文中,我们提出了两种使用编解码器架构来联合提取实体和关系的方法。在第一种方法中,我们提出了一种关系元组的表示方案,该方案使解码器能够像机器翻译模型一样一次生成一个单词,并且仍然能够找到一个句子中所有具有不同长度的完整实体名称和重叠实体的元组。接下来,我们提出了一种基于指针网络的解码方法,在该方法中,每一步都生成一个完整的元组。在公开的《纽约时报》语料库上的实验表明,我们提出的方法优于以前的工作,并取得了显著的更高的F1分数。
作者简介:
Hwee Tou Ng是新加坡国立大学(NUS)计算机科学系讲座教授,也是新加坡国立大学综合科学与工程研究生院的高级教员。他获得了美国德克萨斯大学奥斯汀分校的计算机科学博士学位。他的研究重点是自然语言处理和信息检索。他也是计算语言学协会(ACL)的会员。