Facebook最新语言模型XLM-R：多项任务刷新SOTA，超越单语BERT - 专知

会员服务 ·

0

Facebook最新语言模型XLM-R：多项任务刷新SOTA，超越单语BERT

2019 年 11 月 11 日 新智元

新智元报道

来源：Facebook AI

编辑：肖琴

【新智元导读】Facebook AI最新推出一个名为XLM-R的新模型，使用100种语言、2.5 TB文本数据进行训练，在多项跨语言理解基准测试中取得了SOTA的结果，并超越了单语言的BERT模型。代码已开源，来新智元 AI 朋友圈获取吧~

Facebook AI近日发布一个名为 XLM-R 的新模型，使用100种语言、2.5 TB文本数据进行训练，在四项跨语言理解基准测试中取得了迄今最好的结果。

Yann LeCun在Twitter上赞赏该研究

XLM-R使用自我监督(self-supervised)的训练技术实现了跨语言理解的SOTA性能。在这项任务中，用一种语言对模型进行训练，然后将模型用于其他语言，而不需要额外的训练数据。

XLM-R模型通过合并更多的训练数据和语言(包括缺乏标签的的低资源语言和未标记的数据集)，改进了以前的多语言方法。

在论文“Unsupervised Cross-lingual Representation Learning at Scale”中，研究人员全面分析了无监督多语言掩码语言模型的能力和限制，特别是研究了高资源/低资源和传输/干扰的权衡，并揭示了所谓的“多语言的诅咒”。

XLM-R在四个跨语言理解基准测试中取得了迄今为止最好的结果，在XNLI跨语言自然语言推理数据集上的平均准确率提高了4.7%，在最近推出的MLQA问题回答数据集上的平均F1得分提高了8.4%，在NER数据集上的平均F1得分提高了2.1%。

经过大量的实验和消融研究，研究人员证明了 XLM-R是第一个优于依赖预训练模型的传统单语言基线模型的多语言模型 。具体而言，多语言模型通过在微调时利用多语言的训练集，可以超越单语言的BERT模型。

这项研究的代码和模型已经开源，点击进入新智元小程序获取：

接下来带来这项研究的主要方法和结果。

XLM-R身手不凡：多项任务刷新SOTA，超越单语BERT

尽管该领域的早期工作已经证明了多语言掩码语言模型(multilingual masked language models)在跨语言理解方面的有效性，但是诸如XLM和multilingual BERT这样的模型在学习低资源语言的有用表示方面仍然能力有限。XLM-R在以下几个方面改进了以前的方法:

在XLM和RoBERTa中使用的跨语言方法的基础上，我们增加了新模型的语言数量和训练示例的数量，用超过2TB的已经过清理和过滤的CommonCrawl 数据以自我监督的方式训练跨语言表示。这包括为低资源语言生成新的未标记语料库，并将用于这些语言的训练数据量扩大两个数量级。

用于XLM-100的Wiki-100语料库和用于XLM-R的CC-100语料库中出现的88种语言的GiB (log-scale)数据量。CC-100将数据量增加了几个数量级，特别是对于低资源语言而言。

在fine-tuning期间，我们利用多语言模型的能力来使用多种语言的标记数据，以改进下游任务的性能。这使我们的模型能够在跨语言基准测试中获得state-of-the-art的结果，同时超过了单语言BERT模型在每种语言上的性能。

我们调整了模型的参数，以抵消以下不利因素：使用跨语言迁移来将模型扩展到更多的语言时限制了模型理解每种语言的能力。我们的参数更改包括在训练和词汇构建过程中对低资源语言进行上采样，生成更大的共享词汇表，以及将整体模型容量增加到5.5亿参数。

我们发现XLM-R在低资源语言上表现得特别出色，与以前使用15种语言进行训练的最优技术相比，XLM-R 模型在斯瓦希里语和乌尔都语上的XNLI性能分别提高了2.3%和5%。

跨语言理解结果

跨语言分类结果

我们报告了15种XNLI语言的准确性和平均准确性，证明使用translate-train-all的方法，利用了多种语言的训练集，XLM-R在XNLI上获得了82.4%的平均准确率，而且也优于以前的跨语言迁移方法。

命名实体识别结果

命名实体识别的结果。

问题回答结果

MLQA问题回答的结果。

我们报告了F1和EM(精确匹配)的zero-shot分类得分，其中模型在英语数据集上进行了微调，并在MLQA的7种语言上进行了评估。†的结果取自原始MLQA论文。

GLUE基准结果

GLUE dev结果。†的结果来自 Liu et al. (2019)。我们比较了XLMR与BERT-Large、XLNet和Roberta在英语GLUE benchmark上的性能。

多语言模型vs单语言模型

多语言模型vs单语言模型(BERT-BASE)。我们使用一个基于BERT的结构，比较了在七种语言上单语模型(BERT)和多语模型(XLM)的性能。

总结而言，XLM-R在分类、序列标记和问题回答等方面都优于mBERT和XLM等多语言模型。我们揭示了多语言MLM的局限性，特别是揭示了高资源与低资源的权衡、多语言的诅咒和关键超参数的重要性。我们还展示了多语言模型相对于单语言模型的惊人有效性，并展示了对低资源语言的强大改进。

论文地址：

https://arxiv.org/pdf/1911.02116.pdf

登录查看更多

1

相关内容

XLM-R

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

量子位

3+阅读 · 2019年6月23日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

跨语言版BERT：Facebook提出跨语言预训练模型XLM

跨语言版BERT：Facebook提出跨语言预训练模型XLM

机器之心

4+阅读 · 2019年2月6日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Unsupervised Cross-lingual Representation Learning at Scale

Arxiv

5+阅读 · 2019年11月5日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

Unsupervised Machine Translation Using Monolingual Corpora Only

Arxiv

5+阅读 · 2018年4月13日

VIP会员

相关主题

相关VIP内容

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

量子位

3+阅读 · 2019年6月23日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

跨语言版BERT：Facebook提出跨语言预训练模型XLM

跨语言版BERT：Facebook提出跨语言预训练模型XLM

机器之心

4+阅读 · 2019年2月6日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

相关论文

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Unsupervised Cross-lingual Representation Learning at Scale

Arxiv

5+阅读 · 2019年11月5日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

Unsupervised Machine Translation Using Monolingual Corpora Only

Arxiv

5+阅读 · 2018年4月13日

大家都在搜

朱克爱德华兹家族

大型语言模型

蓝牙安全攻防

滴滴司机调度系统实践

微信扫码咨询专知VIP会员