Pre-trained Transformer-based models are achieving state-of-the-art results on a variety of Natural Language Processing data sets. However, the size of these models is often a drawback for their deployment in real production applications. In the case of multilingual models, most of the parameters are located in the embeddings layer. Therefore, reducing the vocabulary size should have an important impact on the total number of parameters. In this paper, we propose to generate smaller models that handle fewer number of languages according to the targeted corpora. We present an evaluation of smaller versions of multilingual BERT on the XNLI data set, but we believe that this method may be applied to other multilingual transformers. The obtained results confirm that we can generate smaller models that keep comparable results, while reducing up to 45% of the total number of parameters. We compared our models with DistilmBERT (a distilled version of multilingual BERT) and showed that unlike language reduction, distillation induced a 1.7% to 6% drop in the overall accuracy on the XNLI data set. The presented models and code are publicly available.


翻译:培训前的变异器模型正在各种自然语言处理数据集上取得最新结果。 但是,这些模型的大小往往对它们在实际生产应用程序中的部署不利。 在多语言模型中,大多数参数位于嵌入层中。 因此,缩小词汇的大小应该对参数总数产生重大影响。 在本文中,我们提议产生较小的模型,根据目标子体处理较少语言的数量。我们用XNLI数据集对较小版本的多语言BERT进行了评估,但我们认为这一方法可能适用于其他多语言变异器。 获得的结果证实,我们可以产生较小模型,保持可比结果,同时将参数总数减少到45%。我们将我们的模型与DistillemBERT(多语种BERT的蒸馏版)进行比较,并表明,与语言减少不同,蒸馏导致XNLI数据集总体准确度下降1.7%至6%。 提供的模型和代码是公开的。

0
下载
关闭预览

相关内容

必须收藏!MIT-Gilbert老爷子《矩阵图解》,一张图看透矩阵
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
6+阅读 · 2019年1月11日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
3+阅读 · 2019年11月28日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
必须收藏!MIT-Gilbert老爷子《矩阵图解》,一张图看透矩阵
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
6+阅读 · 2019年1月11日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员