Pre-trained language models are trained on large-scale unsupervised data, and they can fine-turn the model only on small-scale labeled datasets, and achieve good results. Multilingual pre-trained language models can be trained on multiple languages, and the model can understand multiple languages at the same time. At present, the search on pre-trained models mainly focuses on rich resources, while there is relatively little research on low-resource languages such as minority languages, and the public multilingual pre-trained language model can not work well for minority languages. Therefore, this paper constructs a multilingual pre-trained model named MiLMo that performs better on minority language tasks, including Mongolian, Tibetan, Uyghur, Kazakh and Korean. To solve the problem of scarcity of datasets on minority languages and verify the effectiveness of the MiLMo model, this paper constructs a minority multilingual text classification dataset named MiTC, and trains a word2vec model for each language. By comparing the word2vec model and the pre-trained model in the text classification task, this paper provides an optimal scheme for the downstream task research of minority languages. The final experimental results show that the performance of the pre-trained model is better than that of the word2vec model, and it has achieved the best results in minority multilingual text classification. The multilingual pre-trained model MiLMo, multilingual word2vec model and multilingual text classification dataset MiTC are published on http://milmo.cmli-nlp.com/.


翻译:预训练语言模型是在大规模无监督数据上进行训练的,它们只需要在小规模标注数据集上进行微调,就能取得良好的结果。多语种预训练语言模型可以在多种语言上进行训练,模型可以同时理解多种语言。目前,预训练模型的研究主要集中在资源丰富的语言上,而很少有关于少数民族语言等低资源语言的研究,公共的多语种预训练语言模型无法很好地处理少数民族语言。因此,本文构建了一个名为MiLMo的多语种预训练模型,在包括蒙古语、藏语、维吾尔语、哈萨克语和朝鲜语在内的少数民族语言任务上表现更好。为了解决少数民族语言数据集稀缺的问题,并验证MiLMo模型的有效性,本文构建了一个少数民族多语言文本分类数据集MiTC,并为每种语言训练了一个word2vec模型。通过比较word2vec模型和预训练模型在文本分类任务中的表现,本文为少数民族语言的下游任务研究提供了最优方案。最终的实验结果表明,预训练模型的性能优于word2vec模型,在少数民族多语言文本分类中取得了最佳结果。多语种预训练模型MiLMo、多语种word2vec模型和多语言文本分类数据集MiTC已发布在http://milmo.cmli-nlp.com/。

1
下载
关闭预览

相关内容

基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
预训练语言模型fine-tuning近期进展概述
专知会员服务
38+阅读 · 2021年4月9日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
已删除
德先生
53+阅读 · 2019年4月28日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关VIP内容
基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
预训练语言模型fine-tuning近期进展概述
专知会员服务
38+阅读 · 2021年4月9日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员