Word embeddings are a core component of modern natural language processing systems, making the ability to thoroughly evaluate them a vital task. We describe DiaLex, a benchmark for intrinsic evaluation of dialectal Arabic word embedding. DiaLex covers five important Arabic dialects: Algerian, Egyptian, Lebanese, Syrian, and Tunisian. Across these dialects, DiaLex provides a testbank for six syntactic and semantic relations, namely male to female, singular to dual, singular to plural, antonym, comparative, and genitive to past tense. DiaLex thus consists of a collection of word pairs representing each of the six relations in each of the five dialects. To demonstrate the utility of DiaLex, we use it to evaluate a set of existing and new Arabic word embeddings that we developed. Our benchmark, evaluation code, and new word embedding models will be publicly available.
翻译:字嵌入是现代自然语言处理系统的核心组成部分,使得能够彻底评估它们成为一项至关重要的任务。 我们描述DiaLex, 这是方言阿拉伯语嵌入的内在评估基准。 DiaLex 覆盖了五种重要的阿拉伯语方言: 阿尔及利亚、 埃及、 黎巴嫩、 叙利亚 和 突尼斯 。 在这些方言中, DiaLex 提供了一个测试库, 测试六种混合和语义关系, 即男性对女性, 单数至双数, 单数至复数, 异名, 比较, 以及比数到过去时。 DiaLex 包含一组代表五种方言中六种关系中的每个关系的词配对。 为了展示DiaLex 的实用性, 我们用它来评估我们开发的一套现有和新的阿拉伯词嵌入式。 我们的基准、 评价代码和新词嵌入模式将公开提供。