AAAI2022 | 针对事件论元抽取学会高效地提问

2022 年 1 月 5 日 专知

论文题目:Learning to Ask for Data-Efficient Event Argument Extraction

本文作者:叶宏彬(浙江大学),张宁豫(浙江大学),毕祯(浙江大学),邓淑敏(浙江大学),谭传奇(阿里巴巴),陈辉(阿里巴巴,黄非(阿里巴巴,陈华钧(浙江大学)

接收会议:AAAI 2022 SA

论文链接:https://www.zhuanzhi.ai/paper/e05dfeb6867cd1998452e5a861b7c59b

欢迎转载,转载请注明出处


摘要

事件参数抽取(EAE)是信息抽取时发现特定事件角色参数的重要任务。在本研究中,我们将EAE转换为一个基于问题的完形填空任务,并对固定离散标记模板性能进行实证分析。由于生成人工注释的问题模板通常是耗时且耗费劳动,我们进一步提出了一种名为“Learning to Ask”的新方法,该方法可以在无需人工注释的情况下学习EAE的优化问题模板。我们使用ACE-2005数据集进行实验,结果表明我们基于优化提问的方法在fewshot和全监督设定中都取得了最先进的性能。

论文动机

事件参数提取(EAE)是信息提取中的一项重要而具有挑战性的任务,它的目的是发现事件中每个参数的特定角色类型。例如,考虑到“ declared bankruptcy”一词在“ My uncle declared bankruptcy in 2003 and his case closed in June 2004”中引发了宣布破产事件,EAE旨在确定“ My uncle”在这句话中的事件角色参数,它的角色参数是“Org”。以前的EAE方法严重依赖于使用大量的训练数据,导致在少量数据可用的场景中难以使用传统方法。

受启发于最近的工作,事件提取(EE)作为一种机器阅读理解问题(MRC)被重新引入,在这个范式中,问题模板被用于将输入句子映射到一个合适的序列。然而对于EAE,这些方法仍然需要优化一个额外的参数矩阵来进行分类,当可用的数据量有限时,这尤其具有挑战性。因此为了弥补微调和预训练之间的差距,我们做了一个尝试,将EAE转换为一个基于问题模板的完形填空任务。我们选择使用陈述性句子作为问题模板,因为它们可以提高跨上下文的语义一致性,提高预测性能。由于不同的提问策略会对事件提取方法的性能产生不同的影响,我们提出了一种新颖的Learning to Ask(L2A)方法,通过反向传播优化问题模板,可以在连续嵌入空间中自动搜索最佳的伪问题令牌。如图1所示,我们将一个问题与输入的句子连接起来,并利用[MASK]来指示后续预测的事件类型。从而事件参数提取作为一种基于问题模板的完形填空任务,以掩码语言建模的方式进行。在第二个优化模板的例子中,我们使用伪问题令牌来搜索最可能的事件参数角色类型。

图1 事件参数提取模板示例。


模型

我们的L2A框架依赖于问题模板,该模板将一个输入句子映射到一个标准transformer输入序列:[CLS]question[SEP]sentence[SEP]。对于问题的模板构建,我们引入了两种不同的策略:(1) L2A (base):输入文本的人工问题模板,它用[mask]替换参数角色的令牌,并在问题模板中添加必要的提示信息,如事件类型和参数跨度标记。(2)L2A (pseudo):由于人工提示问题模板是劳动密集型的,并且可能导致EAE性能次优,因此我们进一步引入了问题模板的自动构造方法。具体来说,我们使用几个未使用的标记[u1]-[u8]来形成一个伪问题模板,并固定语言模型的其他权重来学习优化的问题模板。

由于参数角色标签包含语义信息,所以我们可以将EAE中的标签映射简化为单射函数。例如,我们可以定义投射到”Transaction.Transfer-Money”的函数为:

我们将事件角色的单个标记的词汇表分布规范化,并将预测概率定义为:

其中h[MASK]为对应于[MASK]位置的隐藏向量。接着,我们使用交叉熵损失将事件角色预测定义为:

其中LEAE为EAE损失,CE为交叉熵损失函数。为了使输入文本更接近自然语言,我们利用了一个辅助优化对象。我们随机掩蔽句子中的其他标记,并进行掩蔽语言模型预测如下:

其中u表示问题格式输入序列,xm为随机掩码的原始标记x,x’表示掩码处理后的输入句子,BCE为二进制交叉熵损失函数。最后,我们优化以下对象:

实验

我们用ACE2005数据集来评估我们的L2A模型。对于few-shot场景,我们遵循LM-BFFfew-shot设置,这与 N-way K-shot设置不同。从表1中,我们观察到L2Abase)的表现优于基线,这表明在基于问题的完形填空任务中进行微调可以带来实质性的好处。为了直观地说明优化问题模板的有效性,我们进行了最近邻词汇表嵌入搜索,将最佳优化的伪问题模板令牌投射到可读的自然语言令牌中。我们注意到具有投影问题的模型为L2A (projected)值得注意的是,L2A (projected)的性能仅比最佳优化结果低了0.8%从图2中,我们可以观察到,L2A (pseudo)fewshot场景(k=4)中比以前最先进的模型拥有高达15%的绝对改进。我们认为该问题模板可以包括特定于任务的信息和与参数相关的信息,从而提高了模型的性能。此外,我们的方法与预训练范式一致,因此在使用稀疏数据学习时,更方便地利用参数空间中可用的知识。

表1 使用ACE-2005数据集的全监督结果。

使用ACE-2005数据集的few-shot结果。“base” and “pseudo”分别是指人工问题模板和连续优化问题模板的模型。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DEAE” 就可以获取AAAI2022 | 针对事件论元抽取学会高效地提问》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

浙江大学,简称浙大,坐落于素有“人间天堂”美誉的历史文化名城杭州。前身是1897年创建的求是书院,是中国人自己最早创办的现代高等学府之一,是一所具有悠久历史的教育部直属全国重点大学,985、211工程重点建设高校。据ESI公布的数据,截至2015年9月,浙江大学18个学科进入世界学术机构前1%,居全国高校第二;7个学科进入世界前100位,4个学科进入世界前50位,居全国高校第一。
专知会员服务
21+阅读 · 2021年7月19日
专知会员服务
42+阅读 · 2021年6月6日
专知会员服务
55+阅读 · 2021年2月2日
专知会员服务
47+阅读 · 2020年12月20日
【AAAI2021】利用先验知识对场景图进行分类
专知会员服务
61+阅读 · 2020年12月3日
CoSENT:比Sentence-BERT更有效的句向量方案
PaperWeekly
2+阅读 · 2022年1月12日
论文浅尝 | 基于时序知识图谱的问答
开放知识图谱
7+阅读 · 2021年12月1日
论文浅尝 - ACL2021 | 探讨跨句事件联合抽取问题
开放知识图谱
0+阅读 · 2021年7月19日
【AAAI2021】对比聚类,Contrastive Clustering
专知
25+阅读 · 2021年1月30日
赛尔原创 | EMNLP 2019 常识信息增强的事件表示学习
哈工大SCIR
28+阅读 · 2019年9月12日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员