Most combinations of NLP tasks and language varieties lack in-domain examples for supervised training because of the paucity of annotated data. How can neural models make sample-efficient generalizations from task-language combinations with available data to low-resource ones? In this work, we propose a Bayesian generative model for the space of neural parameters. We assume that this space can be factorized into latent variables for each language and each task. We infer the posteriors over such latent variables based on data from seen task-language combinations through variational inference. This enables zero-shot classification on unseen combinations at prediction time. For instance, given training data for named entity recognition (NER) in Vietnamese and for part-of-speech (POS) tagging in Wolof, our model can perform accurate predictions for NER in Wolof. In particular, we experiment with a typologically diverse sample of 33 languages from 4 continents and 11 families, and show that our model yields comparable or better results than state-of-the-art, zero-shot cross-lingual transfer methods. Moreover, we demonstrate that approximate Bayesian model averaging results in smoother predictive distributions, whose entropy inversely correlates with accuracy. Hence, the proposed framework also offers robust estimates of prediction uncertainty. Our code is located at github.com/cambridgeltl/parameter-factorization


翻译:由于缺少附加说明的数据,自然模型如何能从任务语言组合和现有数据与低资源数据进行抽样高效的概括化?在这项工作中,我们提议了一个用于神经参数空间的巴伊西亚基因化模型;我们假定,这一空间可以被作为每种语言和每项任务的潜在变量;我们根据通过变式推断从任务语言组合中看到的数据推论后人对这些潜在变量的推论。这样就可以对预测时的看不见组合进行零光分分类。例如,为越南的指定实体识别和部分标注在沃洛夫的标注而提供的培训数据,我们的模式可以对沃尔洛夫的NER进行准确预测。特别是,我们试验了来自4个大洲和11个家庭33种语言的典型样本,并显示我们的模型的收成率比标准、零点跨语言传输方法的零点分类。此外,我们还展示了越南的指定实体识别(NER)和部分标注(POOS)的培训数据,我们在沃洛夫的标注中可以对NER进行精确的预测。我们提出的碱性预测框架的准确性预测,我们还展示了在正常的Baybal-siralalalal-comlial compal compal compal compeal compal lapal ress ress ress respalpalpalpalpalpalpalpalpalpalpalpalpalpal ress ress ress respalpalpal ress ress resslationalpalpalpalpalpal ress ress ress resslation ress ress ress resslation fal ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress ress resmal ress res

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
专知会员服务
139+阅读 · 2020年5月19日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
59+阅读 · 2019年8月26日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
3+阅读 · 2018年1月31日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关资讯
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员