赛尔原创 | 搭建基于依存句法和短语结构句法结合的金融领域事件元素抽取系统实践

2017 年 12 月 22 日 哈工大SCIR 哈工大SCIR

作者:廖阔 丁效


摘要:事件抽取是信息抽取领域一个重要的研究方向。针对金融领域特定事件的事件元素抽取,本文介绍了基于依存句法分析进行事件元素核心词抽取,再结合短语结构句法分析进行事件元素完整边界识别的方法,并在因果对抽取工作上进行了实践。实验表明,依存句法结合规则可以有效地抽取事件元素核心词,再结合短语结构句法则可以比较准确的识别出完整的事件元素。


关键词:依存句法;短语结构句法;事件抽取;事件元素


1 前言


事件抽取是将含有事件信息的非结构化文本以结构化的形式呈现出来。事件抽取在多文档文摘,自动文摘,自动问答和信息检索领域有着广泛的应用。


ACE(Automatic Content Extraction)于2005年引入了事件抽取评测任务。事件抽取主要包含事件类型识别和事件元素抽取两个关键任务。其中事件元素抽取对充分理解事件起着至关重要的作用。近些年来,事件元素抽取的方法主要可以分为两类:一类是基于机器学习的方法,另一类是基于模式挖掘和匹配的方法。


基于机器学习的事件元素抽取方法将问题建模为分类某个候选元素(通常是实体名,比如人名,机构名,演唱会名等)是否为事件元素的分类问题。这种建模方法具有较好的准确率与召回率。但金融领域事件词所涉及的事件元素往往超出传统实体定义的实体类型。同时,由于机器学习方法要求标注大量的语料,对于标注数据较为稀缺的金融领域,基于机器学习的事件元素抽取方法无法很好地应用。


基于上述观点,我实验室曾提出基于依存句法和短语结构句法结合的金融领域事件元素抽取方法,并取得了较好的准确率与召回率。本文参考了这一方法,并在因果对抽取工作上进行了实践,取得了一定的效果。本文第二节介绍基于依存句法与短语结构句法的事件元素抽取框架,第三节介绍金融领域的事件抽取方法,第四节介绍该方法在金融领域事理图谱中因果事件对抽取工作上的实践。


2 系统框架


事件元素抽取的流程主要分三个部分:事件类型确定,获取事件元素核心词,识别事件元素名词短语(见图1);下面简要介绍一下各个部分的功能和它们之间的关系。


(1) 事件类型确定


该部分进行触发词(用于标识事件的谓词,一般动词和名词居多)的识别,从而可以使得事件元素抽取系统依据匹配出的触发词类别进行后续的抽取工作。在后面的事件抽取系统中,我们对不同的触发词类别采取不同的抽取模式和候选规则进行抽取。


(2) 获取事件元素核心词


该部分基于依存句法分析结合候选规则进行金融事件元素核心词的获取。在系统中依存句法分析负责对有触发词的句子进行预处理,具体包括分词,词性标注,句法分析。事件元素抽取系统结合具体的捕取模式和手工设计的候选规则对进行过预处理后的句子进行事件元素核心词的抽取。


(3) 识别事件元素名词短语


该部分基于短语结构句法分析识别完整的事件元素名词短语。对于依存句法分析后的事件元素核心词,短语结构句法分析器负责对其所在的名词短语进行名词短语的识别,从而形成最终的完整的事件元素。

图1 事件元素抽取系统框架


3 金融领域事件抽取


在金融领域的事件抽取中,首先需要确定要抽取的事件类型,通过动词细分类进行动词过滤来确定金融领域具有实际意义的动词,再对这些实义动词所涉及的事件元素进行抽取。通过进一步的研究发现,这些事件词在金融语料中大部分都是以谓语动词形式出现,只要应用主谓宾模板召回这些事件词的主语和宾语,基本上就召回了这个事件词所涉及的事件元素,而不需要引入其他过多的模式进行抽取。


在实际的事件元素抽取过程中,在一些情况下依存句法分析无法明确给出一个事件的主语事件元素或者宾语事件元素。为了提高事件元素抽取的召回率,本文在依存句法分析的基础上给出了候选事件元素抽取方法。对于依存句法分析器和候选规则给出事件主语关键词或者宾语关键词,再结合短语结构句法分析器给出的名词短语结构识别出主语或者宾语所在的名词短语,从而给出完整的主语事件元素和宾语事件元素。短语结构句法分析器用来进行事件元素核心词所在的名词短语的识别,可以有效地提升要抽取的事件元素的准确率。


3.1 事件元素核心词抽取


在事件元素的抽取中,对于大部分的触发词都是采用主谓宾模式进行抽取。但是在某些情况下主语和宾语无法由依存句法分析器给出,通过对语料的分析,手动构建了三条主语事件元素抽取候选规则和三条宾语事件元素候选抽取规则,分别是:直接抽取触发词左边(宾语为右边)的名词短语,抽取考虑句法分句边界的触发词左边(宾语为右边)的名词短语,抽取前面(宾语为后面)分句的主语。


在具体的主语事件元素抽取过程中,优先采用句法分析器直接给出的主语事件元素,毕竟依存句法分析器给出的结果在大部分情况下还是最准确的,对于其他3种候选抽取方法,采用对3种抽取方法进行优先级排序,通过开发集数据决定哪一种排序方法能够在保证准确率的同时提高主语事件元素的召回率,从而决定最终抽取该类事件触发词的候选抽取方法排序。下面对本文所具体设计的主语事件元素候选规则进行介绍。宾语部分由于与其非常类似,基本上和主语候选规则是对称的关系,因此不具体展开介绍。


(1) 直接抽取依存句法树中触发词的主语


该方法即是直接抽取依存句法分析器给出的主语成分,比如对于句子“二手房价格如果跌到2007年年初水平。”,依存句法分析器给出触发词“跌”的主语即是“价格”,通过依存弧上关系将“二手房价格”全部召回作为主语。


(2) 候选规则1 前置分句主语作为主语


具体来讲就是抽取事件触发词前面那个分句的第一个谓语动词的主语成分(后面简称为PrevSub)。对于句子“成交量放大至1743.5亿元,创下新高。”,无法直接找出触发词“创下”的主语,而通过找到前面谓语动词“放大”的主语“成交量”,该主语也是“创下”的主语,从而找到了事件触发词的主语。


(3) 候选规则2 考虑句法边界的前置名词作为主语


定义1 触发词句法关系的最左儿子:在同一个分句中,依存于触发词(依存句法弧从触发词触发指向该词)且位于触发词最左侧的那个词称为触发词句法关系的最左儿子。


比如对于句子“国民经济可望继续保持平稳较快增长”,“可望”和触发词“保持”有ADV句法关系,那么就将“可望”就是触发词句法关系的最左儿子(后面简称为PrevIC)。但本句直接提取主语是提取不出来的,因为没有和触发词“保持”具有“SBV”关系的词。但是这个句子中确实存在主语“国民经济”,在图2中可以清晰地看出“国民经济”是离触发词“保持”句法关系最左儿子“可望”最近的名词短语,将其作为候选事件主语元素。

图2 短语结构句法分析


(4) 候选规则3 不考虑句法规则边界的前置名词作为主语


抽取触发词左边的名词短语作为主语事件元素(后面简称为PrevNC)。比如句子“利用外资达到了40.82亿元。”,“外资”是触发词“达到”左边最近的那个名词短语,因此将其抽取作为候选主语事件元素。


3.2 事件元素名词短语识别


在事件元素抽取中,可以通过依存句法分析器给出的依存句法弧识别出主语或者宾语所在的名词短语,从而给出完整的主语事件元素和宾语事件元素。在采取这种方法时,通过遍历依存句法树中在核心词为树根的子树下面的所有具有修饰关系的子节点进行名词短语的识别。但通过测试发现,该方法识别的事件元素的精确评价准确率低。经过分析,这是由于依存句法树是基于词与词的依存关系,在名词短语结构中有一个依存关系分析错误,就会造成整个名词短语的抽取错误,因此对于依存分析器的准确率的要求非常高;为了能够抽取出更加准确的事件元素,本文采用了短语结构句法分析器来代替依存句法分析器来进行主语或者宾语所在名词短语的识别。


对于已经抽取出事件核心词的句子,通过短语结构句法分析器分析出句子的名词短语树结构,然后通过定位事件核心词在名词短语树中的叶子节点位置,逆向的找到其祖先节点中为NP节点中辈分最高的那—个节点,然后通过遍历该节点的子树识别出了事件元素核心词所在的名词短语,从而得到完整的事件元素。如句子“金三银四的楼市行情增强了开发商的停心。”,可以得到“行情”为增强的主语核心词,在短语结构句法树中其辈分最高的节点为“NP”(加粗部分),通过遍历该节点的子树即可得到整个名词短语“金三银四的楼市行情”;而增强的宾语为“信心”,同样可以得到完整的宾语事件元素核心词为“开发商的信心”。

图3 短语结构句法分析图


4 金融领域事理图谱中因果事件对抽取工作上的实践



本节介绍基于依存句法和短语结构句法结合的事件元素抽取方法在金融领域事理图谱中因果事件对抽取工作上的实践。因果对抽取是一种事件类型确定的事件抽取,抽取的主体为事件发生的原因,客体为事件导致的结果。因果关系的触发词较容易确定,本文基于对大量文本的分析与统计,选用“导致”“引起”“使得”“造成”“引发”“招致”“致使”作为因果事件的触发词。而由事件元素核心词查找完整的事件元素名词短语这一过程,在进行不同类型的事件抽取时并无区别,此处不再赘述。下文详细介绍因果事件核心词的抽取与实验结果分析。


4.1 因果事件核心词抽取


此步骤基于依存句法分析进行,在依存句法分析结果中定位到触发词后,通过一定的模式抽取出因果事件的核心词。通过对大量语料及其依存句法分析结果的研究,总结出如下三条抽取规则:


(1) A导致B句式


此句式中因果事件触发词(例:“导致”)在句中充当谓语动词,事件的原因(A)为触发词的主语,事件的结果(B)为触发词的宾语。这一抽取规则的详细描述如下:若存在词A以SBV关系依存于触发词,且存在词B以VOB关系依存于触发词,则将A抽取为原因的核心词,将B抽取为结果的核心词。

图4 “A导致B”句式依存句法分析结果示例图


(2) A导致的B句式


此句式中因果事件的触发词与事件的原因(A)作为修饰成分修饰事件的结果(B),且事件的原因(A)为触发词的主语。这一抽取规则的详细描述如下:若触发词以ATT关系依存于词B,且存在词A以SBV关系依存于触发词,则将A抽取为原因的核心词,将B抽取为结果的核心词。

图5 “A导致的B”句式依存句法分析结果示例图


(3) 导致A的B句式


此句式与“导致A的B”句式相似,因果事件的触发词与时间的结果(A)作为修饰成分修饰事件的原因(B),且事件的结果(A)作为触发词的宾语。这一抽取规则的详细描述如下:若触发词以ATT关系依存于词B,且存在词A以VOB关系依存于触发词,则将B抽取为原因的核心词,将A抽取为结果的核心词。

图6 “导致A的B”句式依存句法分析结果示例图


4.2 实验结果及分析


实验主要针对基于依存句法及短语结构句法的因果对抽取进行准确率的测试。实验中,除了实现了基于依存句法及短语结构句法的因果对抽取方法之外,还实现了基于正则表达式及词性标注的因果对抽取方法:这一方法先使用正则表达式匹配(因……导致……,……引起……)抽取出包含潜在因果的子串,之后对包含潜在结果的子串进行分词与词性标注,剔除其中明显不属于名词短语的成分,将剩下的部分作为抽取出的因果短语。这一方法(简记为基于正则的方法)的准确率低于基于句法的方法,但召回率相对较高。


由于抽取出的事件元素短语往往没有标准结果,多出或缺少某些修饰成分在大部分时候都是可以接受的,因此在统计准确率时,在标准答案中为每一条原因及结果短语标注一个最大范围与一个最小范围,若程序的抽取结果是最大范围的子串,且最小范围是抽取结果的子串,则认为抽取结果是正确的。实验中共标注了502个句子,分别使用基于句法的方法与基于正则的方法进行抽取。基于句法的方法,仅使用第一条规则模板时准确率达到了63.75%,而仅基于正则的方法准确率仅有34.86%,可见基于句法的因果对抽取方法使抽取结果的准确率有了较大提高。


5 结论及未来工作


本文介绍了基于依存句法与短语结构句法相结合的金融领域事件元素抽取方法及其在因果对抽取工作上的实践,列举了三条用于因果核心词抽取的规则模板,并对基于句法的因果对方法进行了准确率测试。最终我们的实验结果表明,基于句法的因果对抽取方法相对于基于正则表达式及词性的方法,在准确率上有了较大的提高。在未来的工作我们需要进一步去挖掘与精炼我们所设计的候选规则,进一步提高因果对抽取工作的准确率。


参考文献


[1] Ellen Riloff. Automatically Generating Extraction Patterns from Untagged Text. In Proceedings of the Thirteen NationalConference on Artificial Intelligence. AAAI-96. pp. 1044-1049. 

[2] Roman Yangarber. Automatic acquisition of domain knowledge for Information Extraction. Proc. COLING 2000. 

[3] 赵妍妍, 秦兵, 车万翔, 刘挺. 中文事件抽取技术研究. 中文信息学报 2008Vo1.22 No.1 pp3-8. 

[4] Shasha Liao. Using Document Level Cross-Event Inference to Improve Event Extraction. Proc. ACL 2010. 

[5] David Ahn. The stages of event extraction[A]. In: Proceedings of the Workshop on Annotations aad Reasoning aboutTime and Events[c]. 2006. 1-8.

[6] Heng Ji. Refining Extraction through Cross-document Inference. Proc. ACL 2008.

[7] K Sudo. An Improved Extraction Pattern Representation Model for Automatic IE Pattern Acquisition. Proc ACL 2003. 

[8] Hai Leong Chieu. A Maximum Entropy Approach to Information Extraction from Semi-Structured and Free Text. AAAI2002. 

[9] ACE Chinese Annotation Guidelines for Events. National Institute of Standards and Technology, 2005.

本期责任编辑:  刘一佳

本期编辑:  赵怀鹏



“哈工大SCIR”公众号

主编:车万翔

副主编: 张伟男,丁效

责任编辑: 张伟男,丁效,赵森栋,刘一佳

编辑: 李家琦,赵得志,赵怀鹏,吴洋,刘元兴,蔡碧波


长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。

登录查看更多
19

相关内容

句法分析(Parsing)就是指对句子中的词语语法功能进行分析,比如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语。 句法分析(syntactic parsing)是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析;语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。
专知会员服务
155+阅读 · 2020年4月21日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
189+阅读 · 2020年1月17日
赛尔原创 | 基于新闻标题表示学习的超额收益预测
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
白雪 | NLP加持知识图谱在金融事件挖掘中的应用
开放知识图谱
14+阅读 · 2018年9月21日
赛尔推荐 | 第3期
哈工大SCIR
7+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2019年9月25日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
6+阅读 · 2018年3月25日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月18日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员