可学习知识引导的事件因果关系识别数据增强方法
事件因果关系识别(Event Causality Identification, ECI)旨在识别文本中事件之间的因果关系,可以为许多自然语言处理任务提供重要线索,如逻辑推理、问答系统等。ECI任务通常被建模为一个分类问题,即识别一个句子中两个事件之间是否存在因果关系。
目前大多数ECI方法采用监督学习的范式。虽然这些方法取得了很好的性能,但通常需要大规模的标注训练数据。然而,现有的事件因果关系识别数据集相对较少。小规模的标注数据集阻碍了高性能事件因果关系识别模型的训练,无法提供充足的训练数据支撑模型准确理解文本中的事件关系语义。
本文探索了一个知识融合的数据增强方法,利用大量抽取的因果相关事件生成新训练数据,解决ECI任务训练数据缺失问题。该方法包含两个框架,知识增强的事件因果关系数据自动标注框架和知识引导的事件因果关系数据生成框架。其中,知识引导的事件因果关系数据生成框架(Learnable Data Augmentation framework, LearnDA),利用对偶学习机制,将事件因果关系识别器和数据生成器对偶约束,从识别过程中学习如何生成任务相关的新数据,从生成过程中学习如何更准确地理解因果语义,生成高质量表达事件因果语义的新训练数据。