作者丨陈致鹏
单位丨科大讯飞
研究方向丨机器阅读理解
选择型阅读理解任务,需要通过阅读一个篇章,然后结合问题从候选答案中选择出正确的答案。本论文首先通过抽取篇章、问题以及选择之间的互信息来获得包含互信息的篇章、问题及选项的表示,然后进一步使用 Attention 方式计算出篇章、问题及选项之间的匹配矩阵,最后通过使用不同窗口大小的卷积神经网络来抽取匹配矩阵的匹配特征得到每个选择作为答案的概率。
其它相关工作在选择型阅读理解任务上都是通过将篇章、问题及选项通过不同方式进行组合匹配,然后再分别计算匹配程度,最后得到选项成为答案的概率,而该论文通过卷积神经网络将所有的匹配矩阵做统一处理,同时综合考虑选项与篇章及问题的匹配,来得到最终的答案。该论文的方法在多个选择型的阅读理解数据集上都获得显著的提高。
选择型阅读理解问题主要包括三个部分,篇章、问题及选项。本论文主要在 RACE 及 SemEval-2018 Task11 两个选择型阅读理解数据集上进行实验。具体数据形式如图。
RACE 数据集的数据来源是中国初高中英语阅读理解题,是中国初高中用了检查学生英语阅读理解水平的的数据,所有题目都是相关老师及教育机构的进行专门设计的。数据集中包含大量的需要概括推理的问题。
SemEval-2018 Task11 是 NAACL 下的一个阅读理解评测任务,与 RACE 最大区别是选项个数为二,另外 SemEval-2018 Task11 上的问题相对较简单。
主要模型结构如图:
模型主要包括四个大的层级,分别是 Embedding Layer、RNN Layer、Attention Layer 及 Answer Layer。
Embedding Layer
该部分主要是模型的输入。模型的输入包括词级别的词向量(GloVe)和字符级别词向量(ELMo),以及相关特征。
特征主要包括词性特征和匹配特征。词性特征是通过词性标注得到每个词的词性,然后将每个词的词性用一个 Embedding 表示。匹配特征包括篇章与问题、篇章与选项及选项与问题中词之间的完全匹配(两个词完全相同)和部分匹配(两个词属于包含关系)。最后词级别的词向量和字符级别的词向量以及相关特征拼接在一起,再输入到一个共享权重的 Highway 得到最终的表示。
RNN Layer
RNN Layer 将 Highway 的输出进行包含上下文语义的建模,采用的模型结构为双向 LSTM。通过双向 LSTM 的处理,当前词不但包含上文的信息还包含了下文的信息,极大的丰富当前词的向量表示。
Attention Layer
该结构通过 Attention 的方式进一步丰富了篇章、问题及选项的表示。选项通过与篇章问题计算 Attention,然后使用 Attention 信息从篇章问题中抽取相关的信息,得到。问题使用 Attention 从篇章中得到以及 Self-Attention 得到。具体计算步骤和公式如图。
通过 Attention 我们得到了包含篇章及问题信息的选项表示,以及包含篇章信息的问题表示。然后将他们两两之间做矩阵乘。最后得到六组匹配矩阵,这六组匹配矩阵中就包含了篇章问题及选项之间的语义空间的匹配关系。
Answer Layer
在这个大的模块里,将上面得到的六组匹配矩阵当作六个通道的语义匹配图,我们专门设计对应的卷积模块从该图中抽取当前选择能够作为答案的匹配特征,然后使用匹配特征通过全连接得到当前选项作为答案的概率。
我们一共定义了三组卷积神经网络和对应的池化操作,分别用于抽取不同粒度的匹配特征。具体公式如图:
M 是 6 通道选项长度乘以问题长度大小的语义匹配图,我们在‘问题’这个维度定义了 5(词)、10(短语)、15(整句)三个不同大小窗口的卷积网络,用于抽取不同粒度匹配特征。同时我们也对应的定义了三个 Max-Pooling,用于进一步抽取更加突出的语义匹配信息。我们称这个部分为 Convolutional Spatial Attention。
通过这个部分可以抽取到匹配特征(O1,O2,O3),后续我们将这些特征链接在一起输入到全连接神经网络,最终得到每个选项作为答案的概率。具体公式如图。
实验的数据集为 RACE 和 SemEval-2018 Task11,实验设置如图。
两个数据上采用相同的实验设置。实验结果如下图。
在 RACE 数据上我们是达到了 State-of-art 的水平。同样从下图可以看出我们在 SemEval-2018 Task11 任务上也是达到了最好的水平。
这部分主要是分析我们在 RACE 数据上不同类型的问题上的效果,对比的是不包含使用 Attention 丰富表示的模型,从图中(左图开发集,右图测试集)我们可以看出无论是在开发集还是在测试集上,我们的模型在 why 和 how 这两类问题上都是要明显高于参照系统,说明我们的系统在这类需要推理的问题上有着明显的优势。
同时我们也进一步做了进一步的消融实验,具体实验结果如下图。
从表格我们可以看出,将 Convolutional spatial attention 结构替换成全连接后,模型的效果明显下降,说明了该结构是非常有用的。
我们的论文从实际问题的特点出发,提出有效的模型结构,同时在 RACE 和 SemEval-2018 Task11 上都达到了非常好的效果。但同时我们也发现目前模型还有很大一类问题无法较好的解决,那就是需要特别复杂推理的问题。这将是我们后续研究的一个重点。
点击以下标题查看更多往期内容:
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文