机器学习模型在自然语言处理中的应用最近的进展是由评估各种任务模型的基准驱动的。然而,这些覆盖范围广泛的基准测试主要局限于英语,尽管人们对多语言模型的兴趣越来越大,但是仍然缺少一个基准测试来全面评估这些方法对各种语言和任务的影响。为此,我们引入了多语言编码器XTREME基准的跨语言转换评估,这是一个多任务基准,用于评估40种语言和9个任务的多语言表示的跨语言泛化能力。我们证明,虽然英语测试的模型在许多任务上达到了人类的表现,但在跨语言迁移模型的表现上仍然有相当大的差距,特别是在句法和句子检索任务上。在不同的语言之间也有广泛的结果。我们发布基准测试是为了鼓励对跨语言学习方法的研究,这种方法可以将语言知识传递到不同的、有代表性的语言和任务中。