赛尔原创 | ACL 2019 机器阅读理解中不可答问题的数据增广

2019 年 6 月 21 日 哈工大SCIR

论文名称:Learning to Ask Unanswerable Questions for Machine Reading Comprehension

论文作者:朱海潮,董力,韦福如,王文辉,秦兵,刘挺

原创作者:哈工大 SCIR 博士生 朱海潮

论文链接:https://arxiv.org/abs/1906.06045

1. 背景介绍

机器阅读理解在近两年取得了非常巨大的进步,当答案为文档中的一个连续片段时,系统已经可以十分准确地从文档中抽取答案,在大规模基准数据集SQuAD上甚至取得超越了人类的表现。然而在现实生活中,往往无法保证给定的文档一定包含某个问题的答案,这时阅读理解系统应拒绝回答,而不是强行输出文档中的得分最高的一个片段。

针对这一问题,本文提出根据可答问题、原文和答案来自动生成相关的不可答问题,进而作为一种数据增强的方法来提升阅读理解系统的表现。利用现有阅读理解数据集(SQuAD 2.0)来构造不可答问题生成模型的训练数据;引入Pair2Seq作为问题生成模型来更好地利用输入的可答问题和原文。

2. 数据构造

图1 SQuAD 2.0数据示例,段落中的答案以高亮方式标示,作为线索对齐可答与不可答问题

SQuAD 2.0数据集包含超过5w个不可答问题,并且为不可答问题标注了一个看起来正确的答案(plausible answer)。上图展示了SQuAD2.0中一个文档和相应的可答与不可答问题,可以看到这两个问题的(plausible)答案对应到同一个片段,用词十分相似且答案具有的类型(所示例子中为organization),通过对可答问题进行修改就能得到相应的不可答问题。基于这个观察,作者以被标注的文本片段为线索来构造训练问题生成模型所需的数据。

3. 模型

图2 Seq2Seq模型与提出的Pair2Seq模型示意图,输入为word embeddings、character embeddings和the token typeembeddings之和

在阅读理解系统中,问题与文档的交互是最为关键的组成部分,受此启发本文提出Pair2Seq模型,在编码(encoding)阶段通过注意力机制(attention mechanism)使问题和文档进行交互,得到基于问题的原文表示和基于原文的问题表示,并共同用于解码(decoding)。为了能够更有效地利用输入的单词来生成不可答问题,在解码时还采用了复制机制(copy mechanism),将文档和输入的可答问题中的词复制到输出中。

4. 实验结果

问题生成的实验结果如下表所示,Pair2Seq模型能够比Seq2Seq模型生成更好的不可答问题,且输入的可答问题起着十分重要的作用。

表1 问题生成自动评价结果

通过在SQuAD2.0数据集上的实验,结果如下表所示,生成的不可答问题作为增强数据能够提高若干不同机器阅读理解模型的表现,在BERT-Base模型上取得了1.9 F1提升,在BERT-Large模型取得了1.7 F1提升。

表2 在SQuAD2.0数据集上的数据增广实验结果,△表明的是绝对提升

另外,对比不同的不可答问题生成方法,如使用可答问题通过TF-IDF来检索其他文档的问题,或者在可答问题中加入反义词、替换实体等规则构造不可答问题。从下表中可以看到,使用Pair2Seq模型生成的不可答问题作为增强数据取得了最大的提升。

表3 增广数据生成方法对比实验结果

为了检验增强数据规模对阅读理解系统的影响,本文通过beam search来为每个输入样本生成多个不可回答问题,在BERT-base和BERT-large模型上进行实验,结果如下表所示,在较小的BERT-base模型上,扩大增强数据规模能够取得进一步的提升,但数据规模对BERT-large模型几乎没有影响。

表4 增广数据规模对比实验结果,“× N”表示数据扩充倍数

Rajpurkar等将SQuAD2.0中的不可答问题分为六类,基于这个标准,本文将生成的不可答问题进行分类统计,从下表中可以看到,自动生成的不可答问题主要由加入否定词和实体替换两类组成,与SQuAD 2.0数据集中人类生成的问题类型分布有较大的差别,类型相对也较单一。

表5 不可答问题类型统计结果,类型具体定义请参考(Rajpurkar et al., 2018)

本期责任编辑:刘一佳

本期编辑:赖勇魁




“哈工大SCIR”公众号

主编:车万翔

副主编: 张伟男,丁效

责任编辑: 张伟男,丁效,刘一佳,崔一鸣

编辑: 李家琦,吴洋,刘元兴,蔡碧波,孙卓,赖勇魁


长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。

登录查看更多
15

相关内容

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务:让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
赛尔原创 | ACL 2019 检索增强的对抗式回复生成
哈工大SCIR
12+阅读 · 2019年7月4日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
哈工大SCIR三篇论文被ACL 2019录用
哈工大SCIR
17+阅读 · 2019年5月15日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
漫谈机器阅读理解之Facebook提出的DrQA系统
深度学习每日摘要
18+阅读 · 2017年11月19日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
Arxiv
3+阅读 · 2018年5月11日
VIP会员
相关资讯
赛尔原创 | ACL 2019 检索增强的对抗式回复生成
哈工大SCIR
12+阅读 · 2019年7月4日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
哈工大SCIR三篇论文被ACL 2019录用
哈工大SCIR
17+阅读 · 2019年5月15日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
漫谈机器阅读理解之Facebook提出的DrQA系统
深度学习每日摘要
18+阅读 · 2017年11月19日
Top
微信扫码咨询专知VIP会员