在深度学习时代,大多数NLP任务的建模已经趋同于几种主流范式。例如,我们通常采用序列标注范式来解决POS-tagging、NER、Chunking等大量任务,而采用分类范式来解决情感分析等任务。随着预训练语言模型的快速发展,近年来出现了范式转移的趋势,即通过将一个自然语言处理任务转换为另一个自然语言处理任务。范式迁移已经在许多任务中取得了巨大的成功,成为一种很有前景的改进模型性能的方法。此外,其中一些范例显示出了统一大量NLP任务的巨大潜力,使构建一个单一模型来处理不同的任务成为可能。在本文中,我们回顾了近年来的范式转移现象,重点介绍了几种有潜力解决不同NLP任务的范式。

https://www.zhuanzhi.ai/paper/40d5d6afe38831202ecb0ad7f0d8cf42

引言

范式是为一类任务建模的一般框架。例如,序列标记是命名实体识别的主流范式。不同的范式通常需要不同的输入和输出,因此高度依赖于任务的注释。在过去的几年里,大多数NLP任务的建模已经趋同于几个主流范式,如本文所总结的,Class, Matching, SeqLab, MRC, Seq2Seq, Seq2ASeq和(M)LM。

尽管许多任务的范式在很长一段时间内已经趋同并占主导地位,但最近的研究表明,某些范式下的模型也能很好地概括其他范式下的任务。例如,MRC范式和Seq2Seq范式也可以在NER任务上实现最先进的性能(Li et al., 2020;Yan et al., 2021b),它们之前在序列标记(SeqLab)范式中被形式化。这类方法通常首先将数据集的形式转换为新范式所需的形式,然后使用新范式下的模型来解决任务。近年来,将一个自然语言处理任务转换为另一个自然语言处理任务的类似方法取得了巨大的成功,并日益受到社会的关注。在预训练语言模型(PTMs)出现之后(Devlin et al., 2019; Raffel et al., 2020; Brown et al., 2020; Qiu et al., 2020),范式转移已经在越来越多的任务中被观察到。结合这些PTMs的力量,一些范例显示出了统一不同NLP任务的巨大潜力。这些潜在的统一范式之一,(M)LM(也称为基于提示的调优),最近取得了快速的进展,使用单个PTM作为各种理解和生成任务的通用求解器成为可能(Schick and Schutze ¨ , 2021a,b; Gao et al., 2021; Shin et al., 2020; Li and Liang, 2021; Liu et al., 2021b; Lester et al., 2021)。

尽管它们取得了成功,但这些分散在各种NLP任务中的范式转移尚未得到系统的回顾和分析。本文综述了范式转移研究的最新进展和发展趋势。本文组织如下。在第2节中,我们给出了这7个范式的形式化定义,并介绍了它们的代表性任务和实例模型。在第3节中,我们展示了最近发生在不同NLP任务中的范式转变。在第4节中,我们讨论了几个突出的范式的设计和挑战,这些范式具有统一大多数现有NLP任务的巨大潜力。在第5节中,我们简要讨论了最近的趋势和未来的方向。

成为VIP会员查看完整内容
0
24

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【导读】预训练模型是当下的研究热点之一。本文对综述了近年来与T-PTLMs相关的研究工作,涵盖了基本概念、分类体系。

引言

基于Transformer的预训练语言模型(T-PTLMs)在几乎所有的自然语言处理任务中都取得了巨大的成功。这些模型的发展始于GPT和BERT。这些模型建立在Transformer、自监督学习和迁移学习的基础上。基于转换的PTLMs通过自监督学习从大量文本数据中学习通用语言表示,并将这些知识转移到下游任务中。这些模型为下游任务提供了良好的背景知识,避免了对下游模型从头开始的训练。在这篇全面的综述论文中,我们首先对自监督学习做一个简要的概述。接下来,我们解释了各种核心概念,如预训练、预训练方法、预训练任务、嵌入和下游适应方法。接下来,我们介绍了 T-PTLMs的一个新分类,然后简要概述了各种基准测试,包括内在和外在的。我们总结了与 T-PTLMs一起工作的各种有用的库。最后,提出了进一步完善这些模型的研究方向。我们坚信,这篇全面的综述论文将为了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新动态提供很好的参考。

摘要

如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因为它们能够从大量未标记的文本数据中学习通用语言表征,然后将这些知识转移到下游任务中。在早期,NLP系统大多是基于规则的,后来被机器学习模型所取代。机器学习模型需要特征工程,这需要领域专业知识,也是一个耗时的过程。gpu和Word2Vec[10]和Glove[11]等更好的计算机硬件的发展,增加了深度学习模型(如CNN[12]和RNN[13]、[14])用于构建NLP系统的使用。这些深度学习模型的主要缺点是需要从头开始训练模型,除了单词嵌入。从头开始训练模型需要大量已标记的实例,生成这些实例的代价是昂贵的。然而,我们希望模型仅使用少数标记实例就能表现良好。迁移学习[15]允许在源任务中学习的知识重用,从而在目标任务中很好地执行。在这里,目标任务应该与源任务类似。基于迁移学习的思想,计算机视觉研究人员使用ImageNet[20],[21]等大规模标记数据集训练了大型CNN模型[16]-[19]。这些模型学习在所有任务中都通用的图像表示。预训练的大型CNN模型通过包含少量特定任务层来适应下游任务,然后在目标数据集[22]上进行微调。由于预先训练好的CNN模型为下游模型提供了良好的背景知识,他们在许多CV任务[18],[23]中获得了巨大的成功。

像CNN和RNN这样的深度学习模型在建模长期上下文和学习带有局部偏差[24]的单词表示方面存在困难。此外,由于RNN按顺序处理输入,即逐字处理,并行计算机硬件的利用率受到限制。为了克服现有深度学习模型的这些缺陷,Vaswani等人[25]提出了一种完全基于自注意的深度学习模型,称为Transformer。与RNN相比,自注意允许更多的并行化,并且可以很容易地建模长期上下文,因为每个令牌都关注输入序列[25]中的所有令牌。Transformer包含编码器和解码器层的堆栈。在编码器和解码器层的帮助下,Transformer可以学习复杂的语言信息。在NLP域中生成大量标记数据是一个非常昂贵和耗时的过程。但是,很容易获得大量未标记的文本数据。NLP研究社区对基于CNN的计算机视觉预训练模型的成功印象深刻,已经开发了结合Transformer和自监督学习的能力的T-PTLMs。自监督学习允许Transformer基于一个或多个预训练任务提供的伪监督进行学习。

GPT和BERT分别是第一个基于transformer 解码器和编码器层开发的T-PTLMs。在GPT和BERT的基础上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。这里XLNet, RoBERTa, ELECTRA和ALBERT是对BERT模型的改进,而T5, BART和PEGAUSUS是基于编码器-解码器的模型。Kaplan等人[26]表明,T-PTLMs的表现可以通过增加模型的大小来提高。这一观察触发了大规模T-PTLMs的发展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含数十亿个参数的T-PTLMs。继T-PTLMs在通用英语领域的成功之后,T-PTLMs也被开发用于其他领域,如金融[31],法律[32],[33],新闻[34],编程[35]-[39],对话[40],网络[41],学术[42]-[44]和生物医学[45]-[48]。TPTLMs还支持迁移学习,因为这些模型可以通过对目标数据集进行微调或即时调整来适应下游任务。本文综述了近年来与T-PTLMs相关的研究工作。我们将综述总结为

  • 我们将简要介绍SSL,它是开发T-PTLMs的支柱(第2节)。

  • 我们解释了与T-PTLMs相关的各种核心概念,如预训练、预训练方法、预训练任务、嵌入和下游适应方法(第3节)。

  • 我们提出了一个新的分类方法来分类各种T-PTLMs。这种分类法基于四个视角,即预训练语料库、体系结构、SSL类型和扩展(第4节)。

  • 我们提出了一种新的分类法来对各种下游适应方法进行分类,并对每一种方法进行详细解释(第5节)。

  • 我们简要概述了评估T-PTLMs进展的各种基准,包括内在的和外在的(第6节)。

  • 我们简要概述了各种库,从Huggingface transformer到Transformer-interpret,这些库对tptlm的工作很有用(第7节)。

  • 我们简要讨论了一些未来的研究方向,这些方向将推动研究团体进一步改进模型(第8节)。

成为VIP会员查看完整内容
0
45

近年来,规模在自然语言处理的快速发展中发挥了核心作用。虽然基准测试被越来越大的模型所主导,但高效的硬件使用对于它们的广泛采用和该领域的进一步发展至关重要。在这个尖端的教程中,我们将概括自然语言处理的最先进技术。在建立这些基础之后,我们将介绍广泛的提高效率的技术,包括知识蒸馏、量化、修剪、更高效的架构,以及案例研究和实际实现技巧。

https://2020.emnlp.org/tutorials

成为VIP会员查看完整内容
0
46

当前自然语言处理的发展为低资源语言和领域提供了挑战和机遇。众所周知,深度神经网络需要大量的训练数据,而这些数据在资源贫乏的情况下可能无法得到。然而,也有越来越多的工作来提高低资源环境下的性能。基于对神经模型的基本改变和目前流行的预训练和微调范式,我们概述了低资源自然语言处理的有前途的方法。在讨论了低资源场景的定义和数据可用性的不同维度之后,我们接着研究了在训练数据稀少时支持学习的方法。这包括创建附加标签数据的机制,如数据增强和远程监督,以及转移学习设置,以减少对目标监督的需要。调查结束时,简要地看了一下在非NLP机器学习社区中建议的方法,这些方法在资源少的情况下可能对NLP有益。

https://arxiv.org/abs/2010.12309

成为VIP会员查看完整内容
0
39

自然语言处理(NLP)帮助智能机器更好地理解人类语言,实现基于语言的人机交流。计算能力的最新发展和大量语言数据的出现,增加了使用数据驱动方法自动进行语义分析的需求。由于深度学习方法在计算机视觉、自动语音识别,特别是NLP等领域的应用取得了显著的进步,数据驱动策略的应用已经非常普遍。本调查对得益于深度学习的NLP的不同方面和应用进行了分类和讨论。它涵盖了核心的NLP任务和应用,并描述了深度学习方法和模型如何推进这些领域。我们进一步分析和比较不同的方法和最先进的模型。

成为VIP会员查看完整内容
0
149

Attention模型目前已经成为神经网络中的一个重要概念,注意力模型(AM)自机器翻译任务【Bahdanau et al 2014】首次引入进来,现在已经成为主流的神经网络概念。这一模型在研究社区中非常受欢迎,适用领域非常广泛,包括自然语言处理、统计学习、语音和计算机视觉方面的应用。本篇综述提供了关于注意力模型的全面概述,并且提供了一种将现有注意力模型进行有效分类的分类法,调查了用于不同网络结构的注意力模型,并显示了注意力机制如何提高模型的可解释性,最后,讨论了一些受到注意力模型较大影响的应用问题。

成为VIP会员查看完整内容
An Attentive Survey of Attention Models.pdf
0
183

在过去的几年里,自然语言处理领域由于深度学习模型的大量使用而得到了发展。这份综述提供了一个NLP领域的简要介绍和一个快速的深度学习架构和方法的概述。然后,筛选了大量最近的研究论文,并总结了大量相关的贡献。NLP研究领域除了计算语言学的一些应用外,还包括几个核心的语言处理问题。然后讨论了目前的技术水平,并对该领域今后的研究提出了建议。

成为VIP会员查看完整内容
0
153
小贴士
相关VIP内容
专知会员服务
106+阅读 · 1月26日
专知会员服务
14+阅读 · 2020年12月2日
专知会员服务
39+阅读 · 2020年10月27日
专知会员服务
37+阅读 · 2020年10月13日
专知会员服务
70+阅读 · 2020年4月23日
专知会员服务
149+阅读 · 2020年3月6日
注意力机制模型最新综述
专知会员服务
183+阅读 · 2019年10月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
153+阅读 · 2019年10月12日
相关论文
Shu-wen Yang,Po-Han Chi,Yung-Sung Chuang,Cheng-I Jeff Lai,Kushal Lakhotia,Yist Y. Lin,Andy T. Liu,Jiatong Shi,Xuankai Chang,Guan-Ting Lin,Tzu-Hsien Huang,Wei-Cheng Tseng,Ko-tik Lee,Da-Rong Liu,Zili Huang,Shuyan Dong,Shang-Wen Li,Shinji Watanabe,Abdelrahman Mohamed,Hung-yi Lee
0+阅读 · 10月15日
Hang Zhang,Yeyun Gong,Yelong Shen,Weisheng Li,Jiancheng Lv,Nan Duan,Weizhu Chen
10+阅读 · 5月10日
Yu Zhou,Haixia Zheng,Xin Huang
39+阅读 · 2020年12月16日
Wenhao Yu,Chenguang Zhu,Zaitang Li,Zhiting Hu,Qingyun Wang,Heng Ji,Meng Jiang
7+阅读 · 2020年10月9日
Yi Tay,Mostafa Dehghani,Dara Bahri,Donald Metzler
14+阅读 · 2020年9月16日
Qi Liu,Matt J. Kusner,Phil Blunsom
24+阅读 · 2020年3月16日
Sparse Sequence-to-Sequence Models
Ben Peters,Vlad Niculae,André F. T. Martins
4+阅读 · 2019年5月14日
Rodrigo Nogueira,Kyunghyun Cho
4+阅读 · 2019年2月18日
Joaquin Vanschoren
115+阅读 · 2018年10月8日
Jing Li,Pengjie Ren,Zhumin Chen,Zhaochun Ren,Jun Ma
5+阅读 · 2017年11月13日
Top