Machine reading comprehension has been an interesting and challenging task in recent years, with the purpose of extracting useful information from texts. To attain the computer ability to understand the reading text and answer relevant information, we introduce ViMMRC 2.0 - an extension of the previous ViMMRC for the task of multiple-choice reading comprehension in Vietnamese Textbooks which contain the reading articles for students from Grade 1 to Grade 12. This dataset has 699 reading passages which are prose and poems, and 5,273 questions. The questions in the new dataset are not fixed with four options as in the previous version. Moreover, the difficulty of questions is increased, which challenges the models to find the correct choice. The computer must understand the whole context of the reading passage, the question, and the content of each choice to extract the right answers. Hence, we propose the multi-stage approach that combines the multi-step attention network (MAN) with the natural language inference (NLI) task to enhance the performance of the reading comprehension model. Then, we compare the proposed methodology with the baseline BERTology models on the new dataset and the ViMMRC 1.0. Our multi-stage models achieved 58.81% by Accuracy on the test set, which is 5.34% better than the highest BERTology models. From the results of the error analysis, we found the challenge of the reading comprehension models is understanding the implicit context in texts and linking them together in order to find the correct answers. Finally, we hope our new dataset will motivate further research in enhancing the language understanding ability of computers in the Vietnamese language.


翻译:机器阅读理解是近年来一个有趣和具有挑战性的任务,其目的是从文本中提取有用信息。为了使计算机能够理解阅读文本并回答相关信息,我们介绍ViMMRC 2.0——前一版ViMMRC的扩展版本,用于越南课本的多项选择阅读理解任务。该数据集包含699个阅读段落,其中包括散文和诗歌,以及5,273个问题。新数据集中的问题不是像以前的版本一样固定有四个选项。此外,问题难度增加,这使得模型寻找正确的选择更具挑战性。计算机必须理解阅读段落的整个上下文,问题和每个选项的内容,以提取出正确答案。因此,我们提出了多阶段方法,将多步注意网络(MAN)与自然语言推理(NLI)任务相结合,以增强阅读理解模型的性能。然后,我们将所提出的方法与基准的BERTology模型在新的数据集(ViMMRC 2.0)和ViMMRC 1.0上进行比较。我们的多阶段模型在测试集上的准确率为58.81%,比最高BERTology模型提高了5.34%。从错误分析的结果来看,我们发现阅读理解模型面临的挑战是理解文本中的隐含语境并将它们联系起来以找到正确答案。最后,我们希望我们的新数据集能够激发更多的研究,以提高计算机在越南语言上的语言理解能力。

0
下载
关闭预览

相关内容

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务:让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
123+阅读 · 2020年9月8日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
赛尔笔记 | 逻辑推理阅读理解任务及方法
哈工大SCIR
1+阅读 · 2022年6月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
23+阅读 · 2021年10月11日
VIP会员
相关VIP内容
专知会员服务
123+阅读 · 2020年9月8日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员