基于深度学习的事件抽取研究综述
远程监督(DS, Distant Supervision)可以为事件抽取自动生成大规模标注数据[54]. 为了解决数据标注问题,Chen 等人[55]利用远程监督方法结合 Freebase [56]构建了一个基于维基百科的事件数据集.他们通过 Freebase 找出事件关键论元,自动检测事件和触发词,利用 FrameNet [57]过滤噪声.实验结果表明,该模型能够学到合理权重来缓解远程监督中噪声问题,同时还充分挖掘有用信息.而Zeng 等人[58]则从维基百科和 Freebase 中自动生成训练事件抽取的数据,将事件抽取训练实例从数千个扩展到数十万个.该模型集成了远程监督的知识库,自动从未标记文本中标注事件数据,并开发了一个基于 Bi-LSTM和CRF 的联合神经网络模型.实验结果证明,该模型可以与已有的数据相结合自动抽取事件,还可以进行多类型的事件检测.Keith等人[59]利用 2016 年全年收集的警察死亡语料库,提出了一个基于特征逻辑回归和卷积神经网络分类器的远程监督模型.通过实验结果可以看出,该模型与现有的抽取模型的 F1 值相比有所提高,说明其方法可以更好地进行事件抽取,但是仍存在人工标注导致的错误传播的问题.Rao 等人[60]提出了一种抽象意义表示(AMR)的方法识别生物医学文本分子事件.他们对事件结构的 AMR 子图进行假设验证,在给定 AMR 的情况下利用远程监督神经网络模型,识别事件子图.通过对其在 BioNLP 共享任务的 GENIA 事件抽取子任务[61]上实验表明,仅以蛋白质为论元的简单事件下 F1 值达到了 94.74%,而复杂事件下降到了 74.18%,这是由于AMR 存在错误解析导致的.
2.3 对事件抽取中深度学习方法的探索
FrameNet(简称 FN)中的帧由一个词法单元和一组帧元素组成,分别扮演与ACE 事件触发词和论元相似的角色,缓解了 ACE 数据集事件类型稀疏的问题.Liu 等人[62]提出了一种基于概率软逻辑的全局推理方法检测FN事件.他们还构建了 Event-FN 数据集,缓解了数据稀疏的问题.通过实验证明,该方法可以实现相关事件类型之间的信息共享.Wadden 等人[63]把全局上下文合并到 IE 框架中,提出了一种基于上下文的跨实体、关系和事件抽取框架(DYGIE++).该方法在 ACE 2005 数据集上,事件触发检测和论元角色分类的F1 值分别为76.5%和52.5%.他们对其他数据集也进行了验证,都优于对比的模型.
Yang 等人[64]对事件、实体及篇章内不同事件的依赖关系进行建模,提出了一种完全端到端学习的模型.实验结果表明,该模型在事件类型分类和论元识别的任务中 F1 值都提高了 1.0%.Han 等人[65]利用端到端的方法, 提出了一种基于共享表示与结构化预测的联合事件和时间关系抽取模型.他们运用两阶段学习方法,首先允许事件和关系模块共享相同的上下文嵌入与神经表示,其次利用结构化的推理和学习方法共同分配事件和事件关系标签,避免了常规管道系统中错误传播的问题.对其进行实验的 F1 值分别提高了10%和6.8%,说明该模型对于端到端事件和时间关系抽取是有效的. 在事件抽取的过程中,总是有数据不平衡的问题出现,而且训练数据稀少也会影响模型的训练效果.针对这些问题, Zhang 等人[66]提出了一种基于迁移学习的神经网络框架(JointTransition),采用从左到右的递增阅读顺序捕获实体和事件提及的依赖结构.在 ACE 2005 数据集上的实验表明,事件触发词分类的任务中F1值达到了73.8%,证明了该方法的有效性.Lu 等人[67]提出了一种基于蒸馏学习和知识泛化的△表示学习方法.实验结果表明,在 ACE 2005 数据集上 F1 值提高了 0.7%,在 TAC-KBP 2017 数据集上 F1 值提高了1.53%.Deng 等人[68]提出了一种基于动态内存的原型网络(DMB-PN),包括了事件触发词识别和 few-shot 事件分类两个阶段.他们还定义“few-shot 事件检测”新问题,也创建了新的数据集 FewEvent.实验结果表明,DMB-PN 不仅比其他基准模型更好地处理数据稀缺的问题,而且在事件类型多样和数据极少的情况下模型的性能较好.Deng 等人[69]在2021年提出了一种基于本体嵌入的 ED 模型(OntoED),同时构建了一个新的数据集 OntoEvent.实验结果表明,在事件角色识别和事件类型分类的任务中 F1 值比 JMEE 模型分别提高了 15.32%和 6.85%,证明了其方法鲁棒性较好. 另外,一些工作还通过结合预训练模型提高事件抽取的性能.Yang 等人[70]针对手工创建的数据费力且数量有限的问题,提出了一种基于语言生成预训练的事件抽取模型(PLMEE).他们为了解决训练数据不足的问题,采用原型网络自动生成标注数据.在 ACE 2005 数据集上的实验表明,事件类型分类和论元分类的任务中F1值分别为81.1%和58.9%.2020年,Du等人[71]则针对错误传播的问题,提出了一种基于问答任务的事件抽取模型.他们在预训练 BERT 的基础上将事件抽取转换为问答任务,并以此为模型在事件触发词识别和论元分类任务上的F1 值分别提高了 0.39%和 0.81%。
Gangal 等人[72]针对 RAMS 数据集在事件论元抽取中准确率存在较大差距的问题,提出了一种基于预训练BERT 的事件论元抽取方法(BERTering RAMS).实验结果表明,该方法具有较好的跨句准确性.Zhang等人[73]为了减少候选论元数量的问题,提出了一种两步隐式事件论元检测方法,将问题分解为两个子问题:论元头词检测和头跨度扩展,其中编码模块采用了预训练 BERT 进行上下文编码.在 RAMS 数据集上的实验结果表明,该模型获比其他对比模型的性能更好. 在生物医学上识别触发词相关联的嵌套结构化事件时准确率不高,Huang 等人[74]提出了一种基于层次知识图的生物医学事件抽取方法(GEANet-SciBERT).该方法在预训练语言模型 SciBERT [93]的基础上,加入了一种新的图神经网络模型 GEANet 作为补充.在 BioNLP 2011 GENIA 事件抽取任务中,该方法在所有事件和复杂事件上 F1 值分别提高 1.41%和 3.19% .
2.4 对中文事件抽取方法的研究
中文事件抽取不仅存在比英文更加严重的数据稀缺问题,而且也存在方法层面和语言特性层面的问题. 中文语言词语间还没有显式间隔,在进行分词时会出现比英文更加明的错误和误差.中文语言的复杂性和灵活性让相同语义的词语、短语和句子有更多表达方式,即同一类型事件触发词可以使用更多词语表达. 根据现有的中文事件抽取相关研究,从文本粒度方面可以将其分为两类:句子级事件抽取和篇章级事件抽取.其中,句子级事件抽取主要是利用句子内部获取特征,即识别句子的中文触发词,并判断实体在事件中所扮演的角色.而篇章级事件抽取主要包含了跨句、跨文档抽取的特征信息.
2.5 数据集
事件抽取中常用的数据集主要包括 ACE 2005、TAC-KBP、BioNLP-ST、GENIA、MLEE 和CEC[86],其中ACE 2005 是应用最广泛的数据集. ACE 数据集是语言数据联盟(LDC, Linguistic Data Consortium)发布的,由实体、关系和事件注释组成的各种类型的数据[2].ACE 2005事件数据集定义了 8 个事件类型和 33个子类型,每个事件子类型对应一组论元角色, 是来自媒体、广播新闻等不同方面的英文、中文和阿拉伯语事件.表 5 描述了相关的事件类型和其子类型.
TAC-KBP 数据集已在 2015 年 TAC 会议事件检测评估中发布[5].TAC-KBP 中的事件类型和子类型是根据ACE 语料库定义的,包括 9 个事件类型和 38 个子类型.TAC-KBP 2015 为英文语料库,但TAC-KBP2016为所有任务添加了中文和西班牙语数据. 生物医学领域的事件抽取数据集,常见的是 BioNLP-ST、GENIA、MLEE 和PC 等.BioNLP-ST是从生物医学领域科学文献的生物分子事件抽取中获得的,包括 GE、CG、PC、GRO、GRN 和BB [87]等任务.GENIA事件数据集是为 GENIA 项目编写并标注的生物医学文献集合事件.而 MLEE 数据集是分子到器官系统的多个生物组织水平的事件.PC 数据集则是与生物分子途径模型有关的反应事件. 除了上述常见的数据集外,还有一些其他领域的数据集,如中文突发事件语料库CEC(Chinese EmergencyCorpus) [86]是由上海大学语义智能实验室所构建,选取了地震、火灾、交通事故、恐怖袭击和食物中毒这5类突发事件的新闻报道进行标注,合计有 332 篇.与 ACE 数据集相比,CEC 较小,但它在事件和事件论元的注释方面更全面.TERQAS研讨会建立了一个名为 TimeBANK数据集,主要用于突发新闻事件抽取[88].还有军事情报领域的 MUC 数据集[89]、丁效等人的音乐领域事件抽取数据集[90] ,以及杨航的中文金融事件抽取数据集[92].
2.6 模型性能及评价
事件抽取常采用准确率(P , Precision)、 召回率(R , Recall) 和 F1 值(F1, F1-Measure)这3项作为基本评价指标.其中,P 是指系统中抽取出的正确个数占抽取出总数的比例,用来衡量抽取准确程度;R是指系统中正确抽取的个数占所有正确总数的比例,用来衡量抽取全面程度;F1 值是P 和R 的加权平均值,作为系统性能的总体评价.
3 事件抽取面临的挑战及研究趋势
事件抽取作为信息抽取中的重要任务之一,能够检测句子提到的某些事件,也可以对事件类型进行分类与识别事件论元.它为知识图谱、推荐系统、信息检索等任务提供基础的数据支持,同时,事件抽取在语义分析、篇章理解、自动问答等领域也具有重要意义.然而,人工智能的发展对事件抽取的准确性提出了更高的要求,深度学习虽已成为事件抽取的关键技术,但在领域自适应性和召回率方面仍有很大的提升空间.
(1)结合深度学习技术进展的事件抽取研究. 事件抽取是在事件触发和论元识别的基础上发展起来的.它在某种程度上取决于事件类型、触发词识别和论元检测的效果,但是这些基础技术准确率不高.在深度学习技术被大规模使用后,事件抽取的效果得到了很大的提升.2015 年至今,该领域的研究热点集中于CNN、RNN、GAN、GCN 以及 Attention 机制、少样本学习、预训练技术等方法的研究,还有联合多种网络来进行事件抽取. 在事件抽取中,如何更有效地结合最新的深度学习技术进行抽取的研究是未来的一个重要趋势.
(2)段落级和篇章级事件抽取的研究. 近几年的事件抽取工作主要聚集在利用深度学习方法进行句子级事件抽取,而实际应用时同一事件经常出现在不同句子中,这时需要通过整个篇章确定事件的具体情况.同时, 还存在抽取的事件信息不完整的问题,在日常应用中,我们经常要了解事件发生的全过程.现有基于深度学习的跨句子级事件抽取模型性能较差,但是段落甚至篇章级的事件抽取要求深度模型具有更复杂的推理能力、更高的准确率以及更好的灵活性,未来利用深度学习技术融合多个句子进行段落和篇章级事件抽取是一个重要的研究方向.
(3)面向特定领域事件抽取系统的设计与研究. 基于特征或传统机器学习的事件抽取方法,已经覆盖了多数可能的输入和特征,而基于深度学习的模型往往依赖网络的复杂程度带来对隐含事件信息挖掘性能的提升. 面向特定领域事件抽取系统的领域与深度学习技术更好的融合,进行可扩展性与可移植性的进一步提升是将来的关键研究内容.
(4)跨语言、跨领域的事件抽取的研究. 目前,事件抽取的水平还限制在对独立语言、单一领域的事件文本处理上,跨语言、跨领域的研究尚处于探索阶段.例如,在中文事件抽取的相关研究主要集中在生物医学、微博、新闻、紧急情况等方面,其他领域和跨语言事件抽取技术的研究很少.随着深度学习技术的进一步完善,跨语言、跨领域的事件抽取必将成为研究热点.
(5)事件抽取中的深度迁移学习的研究. 在事件抽取中,由于触发词特征和数据集注释的不同,可能无法在其他文本上很好地进行研究.尽管有一些迁移学习技术已应用在事件抽取的研究中,但涉及比较少.针对深度迁移学习技术的进一步研究,有利于我们开发一个健壮的识别器来识别不同领域的事件类型,探索事件抽取任务中的少样本、零样本学习,解决领域不匹配和跨域不匹配的问题.
(6)基于远程监督的事件抽取的深入研究. 为了缓解远程监督中经常会出现的错误标签问题,研究者们分别结合多示例学习、注意力机制、噪声建模等方法提出了多种模型,但如何建立更有效的方法缓解远程监督中错误标签的影响仍是事件抽取中研究的重点问题.
4 结论及展望
在本文中,对深度学习中事件抽取技术进行了全面最新的概述.事件抽取发展至今,在研究内容上逐渐由单一领域向多领域、跨领域发展,事件类型的定义方式表示为由人工预先定义转变为事件类型自动发现、挖掘;在研究方法上,深度学习的方法在事件抽取任务的性能上表现良好,基于深度学习的框架日益成为主流,在此基础上结合远程监督、强化学习、少样本学习和零资源学习的思想等可以为事件抽取性能的提升提供新思路. 特别是,中文事件抽取的任务复杂,将深度学习的方法应用在其中,是今后需要努力的一个方向.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“DLE22” 就可以获取《「深度学习事件抽取」最新2022研究综述》专知下载链接