Transformers that are pre-trained on multilingual corpora, such as, mBERT and XLM-RoBERTa, have achieved impressive cross-lingual transfer capabilities. In the zero-shot transfer setting, only English training data is used, and the fine-tuned model is evaluated on another target language. While this works surprisingly well, substantial variance has been observed in target language performance between different fine-tuning runs, and in the zero-shot setup, no target-language development data is available to select among multiple fine-tuned models. Prior work has relied on English dev data to select among models that are fine-tuned with different learning rates, number of steps and other hyperparameters, often resulting in suboptimal choices. In this paper, we show that it is possible to select consistently better models when small amounts of annotated data are available in auxiliary pivot languages. We propose a machine learning approach to model selection that uses the fine-tuned model's own internal representations to predict its cross-lingual capabilities. In extensive experiments we find that this method consistently selects better models than English validation data across twenty five languages (including eight low-resource languages), and often achieves results that are comparable to model selection using target language development data.


翻译:在多语种公司(如, mBERT 和 XLM-ROBERTA) 上接受过预先培训的变异器在多语种公司(如, mBERT 和 XLM- ROBERTA) 上已经实现了令人印象深刻的跨语言转移能力。 在零点传输环境中,只使用英语培训数据,而微调模型则在另一种目标语言上进行评估。虽然这效果令人惊讶,但在不同微调运行和零点设置中的目标语言表现都观察到了巨大的差异,但是在多个微调模型中,没有目标语言发展数据可供选择。 先前的工作依靠英语dev数据来选择那些与不同学习率、步骤数量和其他超参数相比的模型,往往导致次优选择。 在本文中,我们表明,当辅助平流语言提供少量附加数据时,有可能选择一致的更好的模型。 我们建议采用机器学习方法来选择模型,使用微调模式的内部表现来预测其跨语种能力。 在广泛的实验中,我们发现这种方法始终选择比英语校准的模型更好的模型,包括8种低资源语言,并往往通过可比较的数据。

0
下载
关闭预览

相关内容

迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
4+阅读 · 2018年6月4日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
4+阅读 · 2018年6月4日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
Top
微信扫码咨询专知VIP会员