Model-agnostic meta-learning (MAML) has been recently put forth as a strategy to learn resource-poor languages in a sample-efficient fashion. Nevertheless, the properties of these languages are often not well represented by those available during training. Hence, we argue that the i.i.d. assumption ingrained in MAML makes it ill-suited for cross-lingual NLP. In fact, under a decision-theoretic framework, MAML can be interpreted as minimising the expected risk across training languages (with a uniform prior), which is known as Bayes criterion. To increase its robustness to outlier languages, we create two variants of MAML based on alternative criteria: Minimax MAML reduces the maximum risk across languages, while Neyman-Pearson MAML constrains the risk in each language to a maximum threshold. Both criteria constitute fully differentiable two-player games. In light of this, we propose a new adaptive optimiser solving for a local approximation to their Nash equilibrium. We evaluate both model variants on two popular NLP tasks, part-of-speech tagging and question answering. We report gains for their average and minimum performance across low-resource languages in zero- and few-shot settings, compared to joint multi-source transfer and vanilla MAML.


翻译:最近提出了以抽样高效的方式学习资源贫乏语言的模型学元学习(MAML),作为学习资源贫乏语言的战略,不过,这些语言的特性往往没有在培训期间的可用标准中得到很好的体现。因此,我们认为,在MAML中的i.d. 假设使该假设不适合跨语言的NLP。 事实上,根据一个决定理论框架,MAML可以被解释为尽可能减少不同培训语言(统一之前的)的预期风险,这种培训语言被称为Bayes标准。为了提高这种语言对外来语言的坚固性,我们根据替代标准创建了两种MAML变异模式:Minimax MAML降低各种语言的最大风险,而Neyman-Pearson MAML将每种语言的风险限制在最高门槛。这两种标准构成完全不同的双玩游戏。 有鉴于此,我们建议一种新的适应性最佳选择方法解决方案,以达到当地对纳什均衡的近似。我们评估两种流行NLP任务的模式变式,部分为Speech标记,在最低水平和最低版本的MAMLMLMLMLM格式上,我们通过最低的成绩报告,在最低水平和最低版本中,在最低版本和最低版本中进行。

0
下载
关闭预览

相关内容

MAML(Model-Agnostic Meta-Learning)是元学习(Meta learning)最经典的几个算法之一,出自论文《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》。 原文地址:https://arxiv.org/abs/1703.03400
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
89+阅读 · 2020年12月2日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
78+阅读 · 2020年6月26日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
小样本学习(Few-shot Learning)综述
黑龙江大学自然语言处理实验室
28+阅读 · 2019年4月1日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
Arxiv
5+阅读 · 2020年6月16日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
3+阅读 · 2018年4月10日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
小样本学习(Few-shot Learning)综述
黑龙江大学自然语言处理实验室
28+阅读 · 2019年4月1日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Top
微信扫码咨询专知VIP会员