机器阅读理解(MRC)旨在教机器阅读和理解人类语言,这是自然语言处理(NLP)的长期目标。随着深度神经网络的爆发和上下文语言模型(contextualized language models-CLM)的发展,MRC的研究经历了两个重大突破。作为一种现象,MRC和CLM对NLP社区有很大的影响。在本次调查中,我们提供了有关MRC的全面,比较性综述,涵盖了有关以下方面的总体研究主题:1)MRC和CLM的起源和发展,尤其着重于CLM的作用;2)MRC和CLM对NLP社区的影响;3)MRC的定义,数据集和评估;4)从人类认知过程的角度出发,从两阶段编码器-解码器解决架构的角度来看,一般的MRC架构和技术方法;5)以前的重点,新兴的话题以及我们的经验分析,其中我们特别关注在MRC研究的不同时期有效的方法。我们建议对这些主题进行全视图分类和新的分类法。我们得出的主要观点是:1)MRC促进了从语言处理到理解的进步;2)MRC系统的快速改进极大地受益于CLM的开发;3)MRC的主题正逐渐从浅的文本匹配转变为认知推理。
本教程对机器阅读理解进行了全面和比较的综述,旨在训练机器对真实数据的阅读理解能力,这是人工智能的一个主要目标。讨论涵盖了背景、发展、影响、数据集、典型的和最先进的技术、经验评估和最近的趋势,特别关注最近的高级预先训练的语言模型的作用。