北航《深度学习事件抽取》文献综述和当前趋势

基于模式的事件提取是及时理解事件本质内容的关键技术。随着深度学习技术的快速发展，基于深度学习的事件提取技术成为研究热点。文献中提出了大量的方法、数据集和评价指标，因此需要进行全面和更新的调研。本文通过回顾最新的方法填补了这一空白，重点关注基于深度学习的模型。我们总结了基于模式的事件提取的任务定义、范式和模型，然后详细讨论每一个。我们引入了支持预测和评估指标测试的基准数据集。本综述还提供了不同技术之间的综合比较。最后，总结了今后的研究方向。

引言

事件抽取(EE)是信息抽取研究中的一个重要而富有挑战性的课题。事件作为一种特殊的信息形式，是指在特定时间、特定地点发生的涉及一个或多个参与者的特定事件，通常可以描述为状态的变化。事件提取任务旨在将此类事件信息从非结构化的纯文本中提取为结构化的形式，主要描述现实世界中事件发生的“谁、何时、何地、什么、为什么”和“如何”。在应用方面，该任务便于人们检索事件信息，分析人们的行为，促进信息检索、智能问答、知识图谱构建等实际应用。

事件提取可分为两个层次:基于模式的事件提取[17,62]和基于开放域的事件提取[3,42]。在基于模式的事件抽取任务中，事件被认为是特定的人和对象在特定的时间和地点进行交互的客观事实。基于模式的事件提取[25]是寻找属于特定事件模式的单词，即发生的动作或状态变化，其提取目标包括时间、地点、人、动作等。在开放域事件提取任务[44]中，事件被认为是一组主题的相关描述，可以通过分类或聚类形成。基于开放领域的事件提取是指获取与特定主题相关的一系列事件，通常由多个事件组成。无论是基于模式还是开放域事件提取任务，事件提取的目的是从大量文本中捕获我们感兴趣的事件类型，并以结构化的形式显示事件的基本参数。

我们主要关注基于模式的事件抽取，它已经有了大量的工作，是一种比较成熟的研究分类。基于模式的事件提取从文本中发现事件提到，并提取包含事件触发器和事件参数的事件。事件提到是包含一个或多个触发器和参数的句子。事件提取需要识别事件、分类事件类型、识别参数并判断参数角色。触发器识别和事件分类可分为事件检测任务。参数识别和参数角色分类可以定义为参数提取任务。事件分类是一个多标签文本分类任务，用于对每个事件的类型进行分类。角色分类任务是一种基于词对的多分类任务，确定句子中任意一对触发器和实体之间的角色关系。因此，事件提取可以依赖于一些NLP任务的结果，如命名实体识别(NER)、语义解析和关系提取。

我们给出了事件抽取流程图，如图1所示。首先，对于给定的文本，有必要区分文本中的事件类型。对于不同的事件类型，设计了不同的事件模式。目前，事件模式的设计主要包括手工设计和模型生成两种方式。然后，根据模式提取事件参数。在早期阶段，将元素提取作为一个词分类任务，对文本中的每个词进行分类。此外，还有序列标记和机器阅读理解(MRC)方法。最后，由于事件抽取任务的复杂性，研究者考虑引入外部知识来提高模型性能。

近年来，深度学习方法在很多领域得到了应用，深度学习模型能够自动有效地提取句子中的重要特征。与传统的特征提取方法相比，深度学习方法可以自动提取特征。它可以对语义信息进行建模，并在更高的层次上自动组合和匹配触发特征。这些方法的有效性在自然语言处理中得到了验证，并取得了许多突破。在事件提取任务中使用深度学习可以使许多研究人员消除特征提取工作。

大多数基于深度学习的事件提取方法通常采用监督学习，这意味着需要高质量的大数据集。ACE 2005[13]是少数可用的标记事件数据之一，手动标记新闻，博客，采访和其他数据。ACE数据规模小是影响事件提取任务发展的主要因素。依赖人工标注语料库数据耗时耗力，导致现有事件语料库数据规模小、类型少、分布不均匀。事件提取任务可能非常复杂。一个句子中可能有多个事件类型，不同的事件类型将共享一个事件参数。同样的论点在不同事件中的作用也是不同的。根据抽取范式，基于模式的抽取方法可分为基于管道的抽取方法和基于联合的抽取方法。对基于管道的模型学习事件检测模型，然后学习参数抽取模型。联合事件提取方法避免了触发器识别错误对参数提取的影响，但不能充分利用事件触发器的信息。到目前为止，最好的事件提取方法是基于联合的事件提取范例。

对于传统的事件提取方法，需要进行特征设计，而对于深度学习事件提取方法，可以通过深度学习模型进行端到端的特征提取。综合分析了现有的基于深度学习的事件提取方法，并对未来的研究工作进行了展望。本文的主要贡献如下:

介绍了事件提取技术，回顾了事件提取方法的发展历史，指出基于深度学习的事件提取方法已成为主流。我们根据表1中发表年份总结了深度学习模型的必要信息，包括模型、领域、场所、数据集和子任务。
我们详细分析了各种基于深度学习的提取范式和模型，包括它们的优缺点。我们介绍了现有的数据集，并给出了主要评价指标的制定。我们在表3中总结了主要数据集的必要信息，如类别的数量，语言和数据地址。
我们在表5中总结了ACE 2005数据集上的事件提取准确度得分，并讨论了事件提取面临的未来研究趋势，从而总结了综述。

成为VIP会员查看完整内容