Despite the progress made in recent years in addressing natural language understanding (NLU) challenges, the majority of this progress remains to be concentrated on resource-rich languages like English. This work focuses on Persian language, one of the widely spoken languages in the world, and yet there are few NLU datasets available for this rich language. The availability of high-quality evaluation datasets is a necessity for reliable assessment of the progress on different NLU tasks and domains. We introduce ParsiNLU, the first benchmark in Persian language that includes a range of high-level tasks -- Reading Comprehension, Textual Entailment, etc. These datasets are collected in a multitude of ways, often involving manual annotations by native speakers. This results in over 14.5$k$ new instances across 6 distinct NLU tasks. Besides, we present the first results on state-of-the-art monolingual and multi-lingual pre-trained language-models on this benchmark and compare them with human performance, which provides valuable insights into our ability to tackle natural language understanding challenges in Persian. We hope ParsiNLU fosters further research and advances in Persian language understanding.


翻译:尽管近年来在应对自然语言理解(NLU)挑战方面取得了进展,但大部分进展仍然集中在资源丰富的语言上,如英语。这项工作侧重于波斯语,这是世界上广泛使用的语言之一,但这种丰富语言的NLU数据集很少。高质量的评价数据集对于可靠评估不同国家语言理解(NLU)任务和领域的进展十分必要。我们引入了ParsiNLU,这是波斯语的第一个基准,其中包括一系列高级任务 -- -- 阅读理解、文字细节等。这些数据集是以多种方式收集的,往往涉及当地语言的手动说明。这导致在6项不同的NLU任务中出现14.5千美元的新案例。此外,我们介绍关于这一基准的目前最先进的单一语言和多语言预先培训的语言模型的初步结果,并将其与人文表现进行比较,这些结果为我们应对波斯语自然语言理解挑战的能力提供了宝贵的洞察力。我们希望ParsiNLU能够促进对波斯语理解的进一步研究和进步。

0
下载
关闭预览

相关内容

一图掌握《可解释人工智能XAI》操作指南
专知会员服务
59+阅读 · 2021年5月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
已删除
将门创投
4+阅读 · 2019年5月8日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Challenges in Detoxifying Language Models
Arxiv
0+阅读 · 2021年9月15日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
已删除
将门创投
4+阅读 · 2019年5月8日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员