Evaluation for many natural language understanding (NLU) tasks is broken: Unreliable and biased systems score so highly on standard benchmarks that there is little room for researchers who develop better systems to demonstrate their improvements. The recent trend to abandon IID benchmarks in favor of adversarially-constructed, out-of-distribution test sets ensures that current models will perform poorly, but ultimately only obscures the abilities that we want our benchmarks to measure. In this position paper, we lay out four criteria that we argue NLU benchmarks should meet. We argue most current benchmarks fail at these criteria, and that adversarial data collection does not meaningfully address the causes of these failures. Instead, restoring a healthy evaluation ecosystem will require significant progress in the design of benchmark datasets, the reliability with which they are annotated, their size, and the ways they handle social bias.


翻译:对许多自然语言理解(NLU)任务的评价被打破:在标准基准上,不可靠和有偏向的系统得分很高,以致研究人员发展更好的系统以展示其改进之处的空间很小。 最近的趋势是放弃ID基准,转而采用对抗性构筑的超出分配的测试,这确保了目前的模型运行不善,但最终只能掩盖我们想要衡量基准的能力。在本立场文件中,我们列出了我们争论NLU基准应该达到的四项标准。我们争论的是,目前大多数基准在这些标准上都失败了,而对抗性数据收集并没有有意义地解决这些失败的原因。 相反,恢复健康的生态系统将需要在基准数据集的设计、其注释的可靠性、其大小以及它们处理社会偏见的方式方面取得重大进展。

0
下载
关闭预览

相关内容

知识增强预训练语言模型:全面综述
专知会员服务
90+阅读 · 2021年10月19日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
8+阅读 · 2019年10月10日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
Arxiv
0+阅读 · 2021年12月13日
Arxiv
0+阅读 · 2021年12月1日
A Probe into Understanding GAN and VAE models
Arxiv
9+阅读 · 2018年12月13日
Arxiv
4+阅读 · 2018年5月14日
VIP会员
相关资讯
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
Top
微信扫码咨询专知VIP会员