来源:Facebook AI
编辑:肖琴
【新智元导读】Facebook AI最新推出一个名为XLM-R的新模型,使用100种语言、2.5 TB文本数据进行训练,在多项跨语言理解基准测试中取得了SOTA的结果,并超越了单语言的BERT模型。代码已开源,来新智元 AI 朋友圈获取吧~
Facebook AI近日发布一个名为
XLM-R
的新模型,使用100种语言、2.5 TB文本数据进行训练,在四项跨语言理解基准测试中取得了迄今最好的结果。
XLM-R使用自我监督(self-supervised)的训练技术实现了跨语言理解的SOTA性能。在这项任务中,用一种语言对模型进行训练,然后将模型用于其他语言,而不需要额外的训练数据。
XLM-R模型通过合并更多的训练数据和语言(包括缺乏标签的的低资源语言和未标记的数据集),改进了以前的多语言方法。
在论文“Unsupervised Cross-lingual Representation Learning at Scale”中,研究人员全面分析了无监督多语言掩码语言模型的能力和限制,特别是研究了高资源/低资源和传输/干扰的权衡,并揭示了所谓的“多语言的诅咒”。
XLM-R在四个跨语言理解基准测试中取得了迄今为止最好的结果,在XNLI跨语言自然语言推理数据集上的平均准确率提高了4.7%,在最近推出的MLQA问题回答数据集上的平均F1得分提高了8.4%,在NER数据集上的平均F1得分提高了2.1%。
经过大量的实验和消融研究,研究人员证明了
XLM-R是第一个优于依赖预训练模型的传统单语言基线模型的多语言模型
。具体而言,多语言模型通过在微调时利用多语言的训练集,可以超越单语言的BERT模型。
这项研究的代码和模型已经开源,点击进入新智元小程序获取:
XLM-R身手不凡:多项任务刷新SOTA,超越单语BERT
尽管该领域的早期工作已经证明了多语言掩码语言模型(multilingual masked language models)在跨语言理解方面的有效性,但是诸如XLM和multilingual BERT这样的模型在学习低资源语言的有用表示方面仍然能力有限。XLM-R在以下几个方面改进了以前的方法:
用于XLM-100的Wiki-100语料库和用于XLM-R的CC-100语料库中出现的88种语言的GiB (log-scale)数据量。CC-100将数据量增加了几个数量级,特别是对于低资源语言而言。
我们发现XLM-R在低资源语言上表现得特别出色,与以前使用15种语言进行训练的最优技术相比,XLM-R 模型在斯瓦希里语和乌尔都语上的XNLI性能分别提高了2.3%和5%。
我们报告了15种XNLI语言的准确性和平均准确性,证明使用translate-train-all的方法,利用了多种语言的训练集,XLM-R在XNLI上获得了82.4%的平均准确率,而且也优于以前的跨语言迁移方法。
我们报告了F1和EM(精确匹配)的zero-shot分类得分,其中模型在英语数据集上进行了微调,并在MLQA的7种语言上进行了评估。†的结果取自原始MLQA论文。
GLUE dev结果。†的结果来自 Liu et al. (2019)。我们比较了XLMR与BERT-Large、XLNet和Roberta在英语GLUE benchmark上的性能。
多语言模型vs单语言模型(BERT-BASE)。我们使用一个基于BERT的结构,比较了在七种语言上单语模型(BERT)和多语模型(XLM)的性能。
总结而言,XLM-R在分类、序列标记和问题回答等方面都优于mBERT和XLM等多语言模型。我们揭示了多语言MLM的局限性,特别是揭示了高资源与低资源的权衡、多语言的诅咒和关键超参数的重要性。我们还展示了多语言模型相对于单语言模型的惊人有效性,并展示了对低资源语言的强大改进。
https://arxiv.org/pdf/1911.02116.pdf