随着互联网的兴起,每天都有不同形式的大量的文本数据产生:新闻、研究文献、 博客、论坛文字以及社交媒体评论等。很多重要有用的信息隐藏在其中,如何从这些自 由文本中自动抽取所需要的信息是一个关键并且重要的一步。信息抽取任务就是为此目 标而诞生。本文主要研究信息抽取子任务之一的实体关系抽取任务。该任务旨在识别文 本中出现的实体,并判断出实体之间存在的关系。
传统的有监督实体关系抽取通常采用基于流水线的方法,即实体模型和关系模型 分开训练。在测试阶段,先用实体模型识别出实体,然后关系模型找出这些实体之间的 关系。这种流水线的方法存在着错误传播的缺点,前一个任务的错误会累积到后一个任 务。为了缓解这一问题,研究人员提出了联合模型。联合模型将两个子模型统一建模, 可以进一步利用两个任务之间的潜在信息,以缓解错误传播的缺点。联合模型的难点是 如何加强实体模型和关系模型之间的交互,比如实体模型和关系模型的输出之间存在着 一定的约束,在建模的时候考虑到此类约束将有助于联合模型的性能。
另一方面,为了解决实体关系抽取数据集难以获得的问题,远程监督的方法也被提 出来。其主要思想是利用知识库和大规模文本数据对齐,自动构建大规模的训练集。然 而,远程监督方法的缺点是自动构建的训练集中存在着很多的噪音数据,这些噪音数据 的存在对远程监督实体关系抽取有着很大的负面影响。此外,在有些应用场景中可能没 有现成的知识库可以用来进行远程监督,如何解决类似的数据噪音和数据缺失问题也是 一大挑战。
根据实体关系抽取方法的研究现状,本文从数据和联合模型两个角度探索了几种实 体关系抽取联合模型,并且探究了所提出模型的优势和不足。具体来说,本文的主要贡 献有