Multiple choice questions (MCQs) are an efficient and common way to assess reading comprehension (RC). Every MCQ needs a set of distractor answers that are incorrect, but plausible enough to test student knowledge. Distractor generation (DG) models have been proposed, and their performance is typically evaluated using machine translation (MT) metrics. However, MT metrics often misjudge the suitability of generated distractors. We propose DISTO: the first learned evaluation metric for generated distractors. We validate DISTO by showing its scores correlate highly with human ratings of distractor quality. At the same time, DISTO ranks the performance of state-of-the-art DG models very differently from MT-based metrics, showing that MT metrics should not be used for distractor evaluation.


翻译:多项选择题(MCQs)是评估阅读理解能力的有效且普遍的方法。每个MCQ 需要一组干扰答案,这些答案是不正确但足够合理的,以测试学生的知识。已经提出了干扰项生成(DG)模型,并且它们的表现通常使用机器翻译(MT)指标进行评估。然而,MT指标经常错误评估所生成的干扰项的适用性。我们提出了DISTO,这是第一个为生成的干扰项设计的学习性评估指标。我们通过显示它的得分与人类对干扰项质量的评估高度相关来验证DISTO。同时,DISTO与基于MT的指标在评估最先进的DG模型的表现时有着完全不同的排名,表明MT指标不应用于干扰项评估。

0
下载
关闭预览

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
17+阅读 · 2021年8月24日
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
43+阅读 · 2020年11月22日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
26+阅读 · 2020年7月23日
论文浅尝 | Language Models (Mostly) Know What They Know
开放知识图谱
0+阅读 · 2022年11月18日
NAACL 2022 | 机器翻译SOTA模型的蒸馏
PaperWeekly
1+阅读 · 2022年6月28日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
NLG任务评价指标BLEU与ROUGE
AINLP
20+阅读 · 2020年5月25日
已删除
将门创投
11+阅读 · 2019年4月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2023年5月26日
VIP会员
相关VIP内容
专知会员服务
17+阅读 · 2021年8月24日
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
43+阅读 · 2020年11月22日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
26+阅读 · 2020年7月23日
相关资讯
论文浅尝 | Language Models (Mostly) Know What They Know
开放知识图谱
0+阅读 · 2022年11月18日
NAACL 2022 | 机器翻译SOTA模型的蒸馏
PaperWeekly
1+阅读 · 2022年6月28日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
NLG任务评价指标BLEU与ROUGE
AINLP
20+阅读 · 2020年5月25日
已删除
将门创投
11+阅读 · 2019年4月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员