机器学习模型在自然语言处理中的应用最近的进展是由评估各种任务模型的基准驱动的。然而,这些覆盖范围广泛的基准测试主要局限于英语,尽管人们对多语言模型的兴趣越来越大,但是仍然缺少一个基准测试来全面评估这些方法对各种语言和任务的影响。为此,我们引入了多语言编码器XTREME基准的跨语言转换评估,这是一个多任务基准,用于评估40种语言和9个任务的多语言表示的跨语言泛化能力。我们证明,虽然英语测试的模型在许多任务上达到了人类的表现,但在跨语言迁移模型的表现上仍然有相当大的差距,特别是在句法和句子检索任务上。在不同的语言之间也有广泛的结果。我们发布基准测试是为了鼓励对跨语言学习方法的研究,这种方法可以将语言知识传递到不同的、有代表性的语言和任务中。

成为VIP会员查看完整内容
14

相关内容

【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
21+阅读 · 2019年9月6日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
Arxiv
9+阅读 · 2019年11月6日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
9+阅读 · 2019年4月19日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年6月1日
VIP会员
相关主题
相关论文
Arxiv
9+阅读 · 2019年11月6日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
9+阅读 · 2019年4月19日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年6月1日
微信扫码咨询专知VIP会员