We compare two orthogonal semi-supervised learning techniques, namely tri-training and pretrained word embeddings, in the task of dependency parsing. We explore language-specific FastText and ELMo embeddings and multilingual BERT embeddings. We focus on a low resource scenario as semi-supervised learning can be expected to have the most impact here. Based on treebank size and available ELMo models, we select Hungarian, Uyghur (a zero-shot language for mBERT) and Vietnamese. Furthermore, we include English in a simulated low-resource setting. We find that pretrained word embeddings make more effective use of unlabelled data than tri-training but that the two approaches can be successfully combined.


翻译:我们比较了两种正统半监督的学习技术,即依赖分析任务中的三门培训和预先训练的字嵌入。我们探索了语言特定快图和ELMo嵌入和多语种的BERT嵌入。我们关注的是一种低资源设想方案,因为半监督的学习可以在这里产生最大的影响。根据树银行规模和现有的ELMO模型,我们选择了匈牙利语、Uyghur语(MBERT的零速语言)和越南语。此外,我们将英语纳入了模拟的低资源设置。我们发现,预先训练的字嵌入比三门培训更有效地使用未贴标签的数据,但这两种方法可以成功地结合起来。

0
下载
关闭预览

相关内容

近年来,研究人员通过文本上下文信息分析获得更好的词向量。ELMo是其中的翘楚,在多个任务、多个数据集上都有显著的提升。所以,它是目前最好用的词向量,the-state-of-the-art的方法。这篇文章发表在2018年的NAACL上,outstanding paper award。下面就简单介绍一下这个“神秘”的词向量模型。
【SIGIR2021】自然语言处理图深度学习,230页ppt
专知会员服务
93+阅读 · 2021年7月23日
最新《Transformers模型》教程,64页ppt
专知会员服务
274+阅读 · 2020年11月26日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
159+阅读 · 2020年3月18日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
自然语言处理 | 使用Spacy 进行自然语言处理
机器学习和数学
18+阅读 · 2018年8月22日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
6+阅读 · 2021年9月24日
Arxiv
5+阅读 · 2021年6月3日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
5+阅读 · 2019年8月22日
VIP会员
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
自然语言处理 | 使用Spacy 进行自然语言处理
机器学习和数学
18+阅读 · 2018年8月22日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Top
微信扫码咨询专知VIP会员