来自:哈工大SCIR
事件作为信息的一种表现形式,其定义为特定的人及物在特定的时间特定的地点相互作用的事实。事件的组成元素包含触发词、事件类型、论元以及论元角色:
触发词:事件发生的核心词,多为动词和名词。
事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。
论元:事件的参与者。
论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。
例如:在Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。该事件信息如表1所示:
表1 举例事件相关信息
事件抽取的目标即自动化的从非结构化的信息中完成上述信息的获取,并结构化进行展示。事件抽取是信息抽取领域中一项重要且具有挑战性的任务。其可以为知识库构建,问答以及语言理解任务提供有效的结构化信息。然而传统的事件抽取任务大多数基于句子层面,但是这样具有很明显的缺陷:一个事件会涉及到触发词和多个论元,但是实际情况中,很少会有触发词和所有的论元都出现在一个句子中的理想情况(如图1[1]),所以如果在实际的文本中,孤立的从单个句子抽取,很可能会得不到完整的事件信息。因此,研究文档级别的事件抽取,如何获取跨句子的信息,对事件抽取的实际应用是很有帮助的。
文档级别事件抽取任务包含论元角色识别任务(目前研究主要的关注点)、名词短语共指消解以及事件追踪(即判断抽取的论元属于文档中的哪个事件)。本文主要介绍论元角色识别任务,该任务根据预先定义的事件类型以及对应的事件类型所包含的角色,将一个文档中论元识别出来并填充至相应的角色中,具体如图2[2]。
图2是一个典型的文档级事件抽取的例子,可以看出一个事件的论元分散在了多个句子当中,指出了该项任务两个难点[3],即一个事件的论元分散在多个句子当中和一个文档中可能包含多个事件。单从句子层面进行事件抽取难以克服,下文通过介绍几篇文章中的工作来阐述如何完成该项任务。
目前而言事件抽取存在着训练数据不足的缺陷,以经常用来做实验的公开数据集 ACE 2005 来说,该数据集文档数仅599篇,所以需要针对文档事件抽取任务构建数据集。远程监督被证明可以为关系抽取以及事件抽取任务自动生成大量数据[4],以关系抽取中的远程监督举例,如图3,在已有的数据库FreeBase中,已知Steve Jobs 与 Apple 具有founders关系,并且Freebase中提供了相关的表示founders关系的样本句子。但是我们觉得样本数量过少,希望能够根据已有知识来扩展一下数据集,以方便我们模型的训练。我们从外界获得大量的文本,进行关键词的匹配,只要是在同一句话中同时出现了Steve Jobs 以及Apple 这两个实体,我们就假设这句话表达了二者之间具有的founders关系,对这句话进行标注,并加入到训练数据集之中。因此通过远程监督的方法来完成数据的自动标注[1],该数据集共包含2976篇文档,其中91%的事件的论元均分散在多个句子中。Shun Zheng et al.直接花费大量人力手工标注得到数据集ChFinAnn,该数据集共包含32040篇文档。
文档级事件抽取任务无法利用句子层面的抽取方法得到解决,最主要的原因便是一个事件的论元分散在了不同的句子当中,因此如何获取跨句子信息就显得较为重要,以往的方法均是将一个句子作为输入,获得该句子的事件元素。因此最直接的想法便是将整篇文档作为输入,输出事件元素,但实验证明该该种方法效果不佳[2],Xinya Du et al.工作表明,随着输入长度的增加,即一次输入一个句子、k个句子(k=2,3,4)以及整篇文档,准确率呈现先上升后下降,而召回率呈现先下降后上升,最终F1值并没有得到提升,该工作表明文档级事件抽取不仅要关注文档级上下文,句子级上下文也同样重要。因此,提出将文档在不同粒度的信息进行融合用于抽取。具体结构如图5所示,整体上将抽取任务转化为序列标注任务,可以看到模型从两个层次进行信息的获取,左半部分将句子逐句进行编码后输入至Sentence-Level BiLSTM,得到的编码进行拼接,进而获取这k个句子在句子级别的表示,右半部分将这k个句子一起进行编码,然后同时输入至Paragraph-Level BiLSTM,得到这k个句子在文档级别的表示,然后将两者通过门控机制进行融合,如下所示:
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
Hang Yang, Yubo Chen , Kang Liu , et al.: DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics-System Demonstrations. 2018: 50-55.
[2]Xinya Du, Claire Cardie.: Document-Level Event Role Filler Extraction using Multi-Granularity Contextualized Encoding. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics-System Demonstrations. 2020.
[3]Shun Zheng, Wei Cao, Wei Xu, et al.: Doc2EDAG: An end-to-end document-level framework for chinese financial event extraction. In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 337-346.
[4]Yubo Chen, Shulin Liu, Xiang Zhang, et al:. Automatically labeled data generation for large scale event extraction. In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 409-419.
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记
整理不易,还望给个在看!