We show that unsupervised sequence-segmentation performance can be transferred to extremely low-resource languages by pre-training a Masked Segmental Language Model (Downey et al., 2021) multilingually. Further, we show that this transfer can be achieved by training over a collection of low-resource languages that are typologically similar (but phylogenetically unrelated) to the target language. In our experiments, we transfer from a collection of 10 Indigenous American languages (AmericasNLP, Mager et al., 2021) to K'iche', a Mayan language. We compare our model to a monolingual baseline, and show that the multilingual pre-trained approach yields much more consistent segmentation quality across target dataset sizes, including a zero-shot performance of 20.6 F1, and exceeds the monolingual performance in 9/10 experimental settings. These results have promising implications for low-resource NLP pipelines involving human-like linguistic units, such as the sparse transcription framework proposed by Bird (2020).


翻译:我们通过多语种培训隐蔽的局部语言模型(Downey等人,2021年),表明可以把未经监督的序列分层性能转换到极其低的资源语言上。此外,我们证明,通过对一系列在类型上与目标语言相似(但生理上与目标语言无关)的低资源语言进行培训,可以实现这一转移。在我们的实验中,我们把10种美国土著语言(AmericasNLP, Mager等人,2021年)的集成转移到马雅语的K'iche'。我们比较了我们的模型和单一语言基线,并表明多语言的预培训方法在目标数据集大小之间产生更加一致的分层性质量,包括20.6F1的零发性能,超过9/10实验环境中的单语性能。这些结果对涉及类似语言单位的低资源NLP管道,如Bird(2020年)提议的稀有的文字框架,有潜在影响。

0
下载
关闭预览

相关内容

【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
42+阅读 · 2020年11月22日
【EMNLP2020】序列知识蒸馏进展,44页ppt
专知会员服务
38+阅读 · 2020年11月21日
【EMNLP2020】自然语言处理模型可解释性预测,182页ppt
专知会员服务
50+阅读 · 2020年11月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
42+阅读 · 2020年11月22日
【EMNLP2020】序列知识蒸馏进展,44页ppt
专知会员服务
38+阅读 · 2020年11月21日
【EMNLP2020】自然语言处理模型可解释性预测,182页ppt
专知会员服务
50+阅读 · 2020年11月19日
Top
微信扫码咨询专知VIP会员