南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

2022 年 5 月 30 日 专知

最新神经信息抽取综述论文

开放信息抽取(OpenIE)有助于从大型语料库中独立于领域的关系事实发现。该技术非常适合许多开放世界的自然语言理解场景，如自动知识库构建、开放领域问题回答和显式推理。由于深度学习技术的快速发展，许多神经OpenIE架构被提出，并取得了相当大的性能提升。在这项综述中，我们提供了最先进的神经OpenIE模型的广泛概述，它们的关键设计决策，优点和缺点。然后，我们讨论了当前解决方案的局限性和OpenIE问题本身的开放性问题。最后，我们列出了有助于扩大其范围和适用性的最新趋势，为OpenIE的未来研究奠定了良好的方向。据我们所知，这是关于神经OpenIE的第一篇综述。

https://www.zhuanzhi.ai/paper/12abd9cf76dadf37a0ae75527019ba31

OpenIE(开放信息抽取)以n元关系元组的形式提取事实，即(arg1, predicate, arg2，…， argn)，从非结构化文本，而不依赖预定义的本体模式[Niklaus等人，2018]。图1显示了从给定句子中提取的示例OpenIE元组。与传统的(或封闭的)IE系统要求预定义关系相比，OpenIE减少了设计复杂的、领域相关的关系模式的人力劳动。因此，它有可能在最少的人工干预下处理异构语料库。通过OpenIE，可以开发Web规模的无约束IE系统，获取大量的知识。然后，收集的知识可以集成并用于广泛的自然语言处理(NLP)应用，如文本蕴积[Berant et al., 2011]，总结[Stanovsky et al., 2015]，问题回答[Fader et al., 2014; Mausam, 2016]和显性推理[Fu et al., 2019]。

在深度学习之前，传统的OpenIE系统要么基于统计，要么基于规则，并且严重依赖于语法模式的分析[Niklaus et al., 2018]。最近，由于大规模OIE基准(如OIE2016 [Stanovsky and Dagan, 2016], CaRB [Bhardwaj et al., 2019])，以及基于神经的模型在各种NLP任务上的巨大成功(如NER [Li et al.，2022]，机器翻译[Yang et al.，2020])，神经OpenIE解决方案变得流行起来。从Stanovsky等人2018年和Cui等人2018年开始，基于神经的方法主导了OpenIE研究，因为它们在多个OpenIE基准上具有良好的提取质量。神经解决方案主要将OpenIE定义为序列标记问题或序列生成问题。基于标记的方法将句子中的标记或span标记为参数或谓词[Stanovsky et al.，2018;Kolluru et al.，2020a;詹和赵，2020]。生成方法使用自回归神经结构从句子输入中生成提取[Cui et al.，2018;Kolluru et al.，2020b]。最近的一些工作侧重于通过引入新的损失来校准神经模型参数[Jiang et al.，2019年]，或通过引入新的目标来实现语法上合理和语义上一致的提取[Tang et al.，2020年]。

本文系统地回顾了神经OpenIE系统。现有的OpenIE综述[Niklaus et al., 2018; Glauber and Claro, 2018; Claro et al., 2019]关注传统解决方案，并没有很好地涵盖最近的基于神经的方法。由于范式的改变，OpenIE未来研究机会的潜在途径也需要重新考虑。在这项综述中，我们总结了最近的研究进展，分类现有的神经OpenIE方法，确定剩余的问题，并讨论开放的问题和未来的方向。本文的主要贡献如下: 1) 基于神经OpenIE模型的任务公式，提出了神经OpenIE模型的分类方法。然后我们讨论他们的优点和缺点; 2) 我们对OpenIE的背景和评估方法进行了有益的讨论。我们还提供了当前SOTA方法的详细比较;3) 我们讨论了制约OpenIE发展的三个挑战:评估、注释和应用。在此基础上，我们突出未来的方向: 更开放、更专注、更统一。

神经OpenIE解决方案

标记模型 Tagging-based Models

基于标记的模型将OpenIE定义为序列标记任务。给定一组标记，其中每个标记表示一个标记或标记跨度的一个角色(例如，参数，谓词)，模型学习每个标记或标记跨度以句子为条件的标记的概率分布。然后，OpenIE系统根据预测的标记输出元组。基于标记的OpenIE模型与NLP中用于序列标记任务的其他神经模型(例如，NER NER [Li et al., 2022])共享类似的架构。一个模型通常包含三个模块: 生成标记的分布式表示的嵌入层，生成上下文感知的标记表示的编码器，以及基于标记表示和标记方案预测标记的标记解码器。该嵌入层通常将词嵌入与句法特征嵌入相结合，以更好地捕获句子中的句法信息。最近，预训练语言模型(PLMs）在各种NLP任务中表现出了卓越的性能[Devlin et al，2019]。因为PLM产生上下文感知的令牌表示，它们既可以用于产生令牌嵌入，也可以用作编码器。根据标记方案，我们将模型分为基于token的模型、基于span的模型和基于图的模型。

生成式模型 Generative Models

生成模型将OpenIE定义为一个序列生成问题，它读取一个句子并输出一系列的提取。图2(d)给出了生成序列的示例。形式上，给定一个令牌序列S和期望的提取序列Y = （y1, y2，…， ym），模型使条件概率Q P(Y |S) = IIp(yi |y1, y2, . . . , yi−1; S); 也有生成对抗性元组的工作，目的是使分类器难以将它们与真实元组区分开来。

模型结果比较

神经OpenIE系统在两个流行的基准OIE2016和CaRB上的性能，每个都有多个部分匹配策略。每个评估设置下的最佳结果(基于可用的分数)以黑体显示，次佳的结果以下划线显示。文献中缺失的结果标记为“-”。由于logcian仅在中国基准上进行评估，而Adversarial-OIE仅在OIE2016上给出了precision-recall曲线，没有AUC评分，因此这两个系统不在这里列出。为了全面起见，我们还包括了两种流行的基于规则的系统，即ClausIE和OpenIE4。

专知便捷查看