We present ARETA, an automatic error type annotation system for Modern Standard Arabic. We design ARETA to address Arabic's morphological richness and orthographic ambiguity. We base our error taxonomy on the Arabic Learner Corpus (ALC) Error Tagset with some modifications. ARETA achieves a performance of 85.8% (micro average F1 score) on a manually annotated blind test portion of ALC. We also demonstrate ARETA's usability by applying it to a number of submissions from the QALB 2014 shared task for Arabic grammatical error correction. The resulting analyses give helpful insights on the strengths and weaknesses of different submissions, which is more useful than the opaque M2 scoring metrics used in the shared task. ARETA employs a large Arabic morphological analyzer, but is completely unsupervised otherwise. We make ARETA publicly available.
翻译:我们展示了ARTA, 现代标准阿拉伯语自动错误类型说明系统。 我们设计了ARTA, 以解决阿拉伯语的形态丰富性和正方位模糊性。 我们用阿拉伯学习者 Corpus (ALC) 错误标记设置进行一些修改, 我们的错误分类方法基于阿拉伯学习者 Corpus (ALC) 错误标记设置。 ARTA 的性能为85.8%( 微型平均F1分), 以人工加注解的 ALC 盲点测试部分为单位。 我们还将ARTA 应用于2014 QALB 共同提交的一些阿拉伯语法错误校正任务, 以此来显示它的可用性。 由此产生的分析有助于了解不同文件的优缺点, 这比在共同任务中使用的不透明的 M2 评分标准更为有用。 ARTA 使用了一个大型的阿拉伯形态分析器, 但却完全没有监督。 我们公开了 ARETA 。