上下文嵌入,如ELMo和BERT,超越了像Word2Vec这样的全局单词表示,在广泛的自然语言处理任务中取得了突破性的性能。上下文嵌入根据上下文为每个单词分配一个表示,从而捕获不同上下文中单词的用法,并对跨语言传输的知识进行编码。在这项综述中,我们回顾了现有的上下文嵌入模型、跨语言的多语言预训练、上下文嵌入在下游任务中的应用、模型压缩和模型分析。

在大型语料库无监督训练的分布式词表示(Turian et al., 2010; Mikolov et al., 2013; Pennington et al., 2014)在现代自然语言处理系统中得到了广泛的应用。但是,这些方法只获得每个单词的一个全局表示,而忽略了它们的上下文。与传统的单词表示不同,上下文嵌入超越了单词级语义,因为每个标记都与作为整个输入序列的函数的表示相关联。这些与上下文相关的表示可以在不同的上下文中捕捉到词汇的许多句法和语义特征。(Peters et al., 2018; Devlin et al., 2018; Yang et al., 2019; Raffel et al., 2019)的研究表明,在大规模未标记的语料库上预训练的上下文嵌入,在文本分类、问题回答和文本摘要等一系列自然语言处理任务上取得了最先进的表现。进一步的分析(Liu et al., 2019a; Hewitt and Liang, 2019; Hewitt and Manning, 2019; Tenney et al., 2019a)证明了上下文嵌入能够学习跨语言的有用且可迁移的表示。

综述论文的其余部分组织如下。在第2节中,我们定义了上下文嵌入的概念。在第3节中,我们将介绍获取上下文嵌入的现有方法。第四部分介绍了多语言语料库中下文嵌入的预处理方法。在第5节中,我们描述了在下游任务中应用预训练的上下文嵌入的方法。在第6节中,我们详细介绍了模型压缩方法。在第7节中,我们调查了旨在识别通过语境嵌入学到的语言知识的分析。在第8节中,我们通过强调未来研究的一些挑战来结束综述。

成为VIP会员查看完整内容
83

相关内容

临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
BERT技术体系综述论文:40项分析探究BERT如何work
专知会员服务
139+阅读 · 2020年3月1日
【论文笔记】基于BERT的知识图谱补全
专知
116+阅读 · 2019年9月15日
图卷积神经网络(GCN)文本分类详述
专知
279+阅读 · 2019年4月5日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
Arxiv
29+阅读 · 2020年3月16日
Arxiv
35+阅读 · 2020年1月2日
Arxiv
6+阅读 · 2019年9月25日
Arxiv
7+阅读 · 2018年8月28日
VIP会员
微信扫码咨询专知VIP会员