信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。

VIP内容

随着互联网的兴起,每天都有不同形式的大量的文本数据产生:新闻、研究文献、 博客、论坛文字以及社交媒体评论等。很多重要有用的信息隐藏在其中,如何从这些自 由文本中自动抽取所需要的信息是一个关键并且重要的一步。信息抽取任务就是为此目 标而诞生。本文主要研究信息抽取子任务之一的实体关系抽取任务。该任务旨在识别文 本中出现的实体,并判断出实体之间存在的关系。

传统的有监督实体关系抽取通常采用基于流水线的方法,即实体模型和关系模型 分开训练。在测试阶段,先用实体模型识别出实体,然后关系模型找出这些实体之间的 关系。这种流水线的方法存在着错误传播的缺点,前一个任务的错误会累积到后一个任 务。为了缓解这一问题,研究人员提出了联合模型。联合模型将两个子模型统一建模, 可以进一步利用两个任务之间的潜在信息,以缓解错误传播的缺点。联合模型的难点是 如何加强实体模型和关系模型之间的交互,比如实体模型和关系模型的输出之间存在着 一定的约束,在建模的时候考虑到此类约束将有助于联合模型的性能。

另一方面,为了解决实体关系抽取数据集难以获得的问题,远程监督的方法也被提 出来。其主要思想是利用知识库和大规模文本数据对齐,自动构建大规模的训练集。然 而,远程监督方法的缺点是自动构建的训练集中存在着很多的噪音数据,这些噪音数据 的存在对远程监督实体关系抽取有着很大的负面影响。此外,在有些应用场景中可能没 有现成的知识库可以用来进行远程监督,如何解决类似的数据噪音和数据缺失问题也是 一大挑战。

根据实体关系抽取方法的研究现状,本文从数据和联合模型两个角度探索了几种实 体关系抽取联合模型,并且探究了所提出模型的优势和不足。具体来说,本文的主要贡 献有

    1. 为了缓解远程监督中的噪音样本问题,本文提出利用少量高质量异构的人工标注 数据集帮助远程监督实体关系抽取任务。本文设计了一个基于多任务学习的融合 框架,并且在融合过程中考虑到子模型之间的一致性约束,从而实现知识的迁移。本文提出的系统在标准远程监督数据集能够显著的提高联合抽取的性能(数据角 度)。
    1. 为了解决某些领域没有现成知识库无法进行远程监督的问题,本文提出利用语言 学规则进行远程监督。首先应用领域无关的语言学规则自动构建训练集,然后使用 分类器在得到的训练集上进行训练,最后利用分类器进一步抽取语言学规则无法 覆盖的新的实体关系。本文提出的算法很快并且适用于大规模数据。在 Amazon 在 i 线评论数据集上的实验表明了本文提出的算法明显优于多个基准模型(数据角度)。
    1. 为了加强实体模型和关系模型之间的交互,本文提出基于风险最小化训练方法的 联合实体关系抽取模型,通过优化全局的损失函数以达到加强实体模型和关系模 型之间联系的目的。在 ACE05 数据集上的实验证明了提出模型的有效性(联合模 型角度)。
    1. 为了同时考虑到实体类型和关系类型的信息,本文提出一个基于图卷积网络的联 合模型用于实体关系抽取。我们构造了实体-关系二分图,并在图上运行图卷积网 络,从而捕获多个实体和多个关系之间的信息。在 ACE05 数据集上的实验证明了 提出模型的有效性(联合模型角度)。

https://www.czsun.site/

成为VIP会员查看完整内容
0
25

最新论文

The occupancy grid map is a critical component of autonomous positioning and navigation in the mobile robotic system, as many other systems' performance depends heavily on it. To guarantee the quality of the occupancy grid maps, researchers previously had to perform tedious manual recognition for a long time. This work focuses on automatic abnormal occupancy grid map recognition using the residual neural networks and a novel attention mechanism module. We propose an effective channel and spatial Residual SE(csRSE) attention module, which contains a residual block for producing hierarchical features, followed by both channel SE (cSE) block and spatial SE (sSE) block for the sufficient information extraction along the channel and spatial pathways. To further summarize the occupancy grid map characteristics and experiment with our csRSE attention modules, we constructed a dataset called occupancy grid map dataset (OGMD) for our experiments. On this OGMD test dataset, we tested few variants of our proposed structure and compared them with other attention mechanisms. Our experimental results show that the proposed attention network can infer the abnormal map with state-of-the-art (SOTA) accuracy of 96.23% for abnormal occupancy grid map recognition.

0
0
下载
预览
Top