This paper describes the KUIS-AI NLP team's submission for the 1$^{st}$ Shared Task on Multilingual Clause-level Morphology (MRL2022). We present our work on all three parts of the shared task: inflection, reinflection, and analysis. We mainly explore two approaches: Transformer models in combination with data augmentation, and exploiting the state-of-the-art language modeling techniques for morphological analysis. Data augmentation leads a remarkable performance improvement for most of the languages in the inflection task. Prefix-tuning on pretrained mGPT model helps us to adapt reinflection and analysis tasks in a low-data setting. Additionally, we used pipeline architectures using publicly available open source lemmatization tools and monolingual BERT-based morphological feature classifiers for reinflection and analysis tasks, respectively. While Transformer architectures with data augmentation and pipeline architectures achieved the best results for inflection and reinflection tasks, pipelines and prefix-tuning on mGPT received the highest results for the analysis task. Our methods achieved first place in each of the three tasks and outperforms mT5-baseline with ~89\% for inflection, ~80\% for reinflection and ~12\% for analysis. Our code https://github.com/emrecanacikgoz/mrl2022 is publicly available.
翻译:本文描述了 KUIS-AI NLP 团队为多语言条款水平道德学共同任务提交的 1 美元 的 共享任务 。 我们介绍了我们关于共享任务所有三个部分的工作: 透视、 重新透视和分析。 我们主要探讨两种方法: 与数据扩增相结合的变换模型, 以及利用最新语言模型技术进行形态分析。 数据扩增使大多数语言在渗透任务中的业绩显著改善。 预先培训的 mGPT 模型的预先调整帮助我们在低数据设置中调整重新公布和分析任务。 此外, 我们使用公开的开放源 Lemmatization 工具和基于单一语言的变形特征解析器, 分别用于重现和分析任务。 具有数据扩增和管道结构的变换结构在渗透和再现任务、 输油管道和 mGPT 80 前的调整工作获得了最高的分析结果 。 我们的第三种变形方法, 用于我们第三种变形的 Rencom 。