Pretrained multilingual models (PMMs) enable zero-shot learning via cross-lingual transfer, performing best for languages seen during pretraining. While methods exist to improve performance for unseen languages, they have almost exclusively been evaluated using amounts of raw text only available for a small fraction of the world's languages. In this paper, we evaluate the performance of existing methods to adapt PMMs to new languages using a resource available for over 1600 languages: the New Testament. This is challenging for two reasons: (1) the small corpus size, and (2) the narrow domain. While performance drops for all approaches, we surprisingly still see gains of up to $17.69\%$ accuracy for part-of-speech tagging and $6.29$ F1 for NER on average over all languages as compared to XLM-R. Another unexpected finding is that continued pretraining, the simplest approach, performs best. Finally, we perform a case study to disentangle the effects of domain and size and to shed light on the influence of the finetuning source language.


翻译:训练有素的多语种模式(多语种模式)通过跨语种转让,使零点学习成为可能,在培训前所看到的语言表现最优; 虽然有方法改进隐性语言的表现,但几乎完全使用仅供世界一小部分语言使用的原始文本来评价这些语言; 在本文件中,我们评估现有方法的绩效,利用1600多种语言的资源,使多语种模式适应新语言:新约约书;这具有挑战性,原因有二:(1) 体积小;(2) 范围狭窄;虽然所有方法的性能都下降,但令人惊讶的是,与XLM-R相比,部分语音标记的性能下降达到17.69美元,平均所有语言的NER为6.29美元;另一个出乎意料的发现是,继续培训前最简单的方法,表现最佳。最后,我们进行了一项案例研究,以消除域和大小的影响,并阐明微调源语言的影响。

0
下载
关闭预览

相关内容

最新「注意力机制」大综述论文,66页pdf569篇文献
专知会员服务
205+阅读 · 2021年4月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
59+阅读 · 2019年8月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
Top
微信扫码咨询专知VIP会员