We present ARETA, an automatic error type annotation system for Modern Standard Arabic. We design ARETA to address Arabic's morphological richness and orthographic ambiguity. We base our error taxonomy on the Arabic Learner Corpus (ALC) Error Tagset with some modifications. ARETA achieves a performance of 85.8% (micro average F1 score) on a manually annotated blind test portion of ALC. We also demonstrate ARETA's usability by applying it to a number of submissions from the QALB 2014 shared task for Arabic grammatical error correction. The resulting analyses give helpful insights on the strengths and weaknesses of different submissions, which is more useful than the opaque M2 scoring metrics used in the shared task. ARETA employs a large Arabic morphological analyzer, but is completely unsupervised otherwise. We make ARETA publicly available.


翻译:我们展示了ARTA, 现代标准阿拉伯语自动错误类型说明系统。 我们设计了ARTA, 以解决阿拉伯语的形态丰富性和正方位模糊性。 我们用阿拉伯学习者 Corpus (ALC) 错误标记设置进行一些修改, 我们的错误分类方法基于阿拉伯学习者 Corpus (ALC) 错误标记设置。 ARTA 的性能为85.8%( 微型平均F1分), 以人工加注解的 ALC 盲点测试部分为单位。 我们还将ARTA 应用于2014 QALB 共同提交的一些阿拉伯语法错误校正任务, 以此来显示它的可用性。 由此产生的分析有助于了解不同文件的优缺点, 这比在共同任务中使用的不透明的 M2 评分标准更为有用。 ARTA 使用了一个大型的阿拉伯形态分析器, 但却完全没有监督。 我们公开了 ARETA 。

0
下载
关闭预览

相关内容

ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
专知会员服务
25+阅读 · 2021年4月2日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
专知会员服务
42+阅读 · 2020年12月18日
专知会员服务
123+阅读 · 2020年9月8日
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
R文本分类之RTextTools
R语言中文社区
4+阅读 · 2018年1月17日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
Arxiv
0+阅读 · 2021年11月6日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
R文本分类之RTextTools
R语言中文社区
4+阅读 · 2018年1月17日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
Top
微信扫码咨询专知VIP会员