哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO

2021 年 10 月 25 日 哈工大SCIR

声明:本文转载自 哈工大讯飞联合实验室 公众


在自然语言处理领域中,预训练语言模型已成为重要的基础技术和资源。在多语言理解相关的研究中,预训练模型的使用也愈加普遍。然而,由于国内少数民族语言语料稀缺、获取难度大等原因,相关技术研究相对匮乏,并且现有的多语言模型无法很好地处理绝大多数国内少数民族语言文字。


为了促进中国少数民族语言信息处理的研究与发展,哈工大讯飞联合实验室(HFL)发布首个面向少数民族语言的多语言预训练模型CINO (Chinese mINOrity pre-trained language model,读音同sino),弥补相关资源的空白。目前相关预训练模型和任务数据已开源,欢迎各位读者下载使用。



项目地址:
  • https://cino.hfl-rc.com

  • https://github.com/ymcui/Chinese-Minority-PLM


CINO模型简介

CINO基于多语言预训练模型XLM-R开发,在多种少数民族语言语料上进行了二次预训练,提供了藏语、蒙语(回鹘体)、维吾尔语、哈萨克语(阿拉伯体)、朝鲜语、壮语、粤语等少数民族语言与方言的理解能力。

为了便于评价包括CINO在内的各个多语言预训练模型在少数民族语言任务上的性能,我们构建了基于维基百科的少数民族语言分类任务数据集Wiki-Chinese-Minority(WCM)。实验结果表明,CINO在WCM数据集以及其他少数民族语言数据集上获得了最好的效果。


本次推出的CINO模型是large版本(参数量:585M),包含24层Transformer,隐层大小为1024。在未来,我们将推出更多版本的预训练模型以适应不同需求。


性能效果

我们在新构建的WCM多语言分类数据集、KLUE推出的朝鲜语文本分类YNAT、复旦大学推出的藏语文本分类TNCC上验证了模型效果。CINO相比其他基线模型获得了显著的性能提升。


1、Wiki-Chinese-Minority(WCM)多语言分类

我们基于少数民族语言维基百科语料及其分类体系标签,构建了分类任务数据集Wiki-Chinese-Minority(WCM)。该数据集覆盖了蒙古语、藏语、维吾尔语、哈萨克语、朝鲜语、粤语、中文共七种语言和方言,包括艺术、地理、历史、自然、自然科学、人物、技术、教育、经济和健康十个类别。我们在中文训练集上训练,在其他语言上做zero-shot测试,评价指标为macro-F1。

表1 少数民族多语言分类数据集WCM效果


2、朝鲜语文本分类(YNAT)

该任务选用KLUE团队发布的朝鲜语新闻主题分类数据集YNAT。训练集包含45,678条样本,分为7个类别,评价指标为macro-F1。

图2 朝鲜语文本分类YNAT效果


3、藏语文本分类(TNCC)

该任务选用由复旦大学自然语言处理实验室发布的藏语新闻数据集Tibetan News Classification Corpus (TNCC)。数据集包含9,203条样本,分为12个类别。我们按8:1:1的比例将其划分为训练、开发、测试集,评价指标为macro-F1。

3 藏语文本分类TNCC效果


快速加载

哈工大讯飞联合实验室发布的所有预训练语言模型均可通过🤗transformers库进行快速加载访问,目前已开源30多个预训练模型。请登录我们的模型库页面获取更多信息。

https://huggingface.co/HFL


未来展望

少数民族语言处理是中文信息处理中不可缺少的一环,也是中文信息处理多样性的一种体现。近年来,从国内外自然语言处理重要会议和期刊来看,关于国内少数民族语言的研究正稳步增多,说明越来越多的研究人员意识到少数民族语言处理的重要意义。


我们希望随着少数民族语言预训练模型CINO的推出,能够进一步促进少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。例如,借助CINO的跨语言理解能力,将中文上的NLP能力直接迁移至少数民族语言而无需额外的训练数据,降低了开发成本。另一方面,CINO的多语言理解能力可以比较不同语言的语义,从而使得中文与少数民族语言之间的跨语言检索成为可能。未来我们将进一步优化CINO模型及配套数据和代码,为少数民族语言NLP研究提供更多基础资源。


其他相关资源

  • 中文BERT、RoBERTa:http://bert.hfl-rc.com

  • 中文XLNet:http://xlnet.hfl-rc.com

  • 中文ELECTRA:http://electra.hfl-rc.com

  • 中文MacBERT模型:http://macbert.hfl-rc.com

  • 知识蒸馏工具TextBrewer:http://textbrewer.hfl-rc.com


本期责任编辑:丁   效

本期编辑:冯   晨



哈尔滨工业大学社会计算与信息检索研究中心

理解语言,认知社会

以中文技术,助民族复兴

登录查看更多
1

相关内容

预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。
专知会员服务
61+阅读 · 2021年8月4日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
33+阅读 · 2020年11月25日
专知会员服务
193+阅读 · 2020年10月14日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
28+阅读 · 2021年10月1日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员