预训练语言模型(PLMs)是在大规模语料库上以自监督方式进行预训练的语言模型。在过去的几年中,这些PLM从根本上改变了自然语言处理社区。**在本教程中,我们旨在从两个角度提供广泛而全面的介绍:为什么这些PLM有效,以及如何在NLP任务中使用它们。**本教程的第一部分对PLM进行了一些有见地的分析,部分解释了PLM出色的下游性能。第二部分首先关注如何将对比学习应用于PLM,以改进由PLM提取的表示,然后说明如何在不同情况下将这些PLM应用于下游任务。这些情况包括在数据稀缺的情况下对PLM进行微调,以及使用具有参数效率的PLM。我们相信,不同背景的与会者会发现本教程内容丰富和有用。

https://d223302.github.io/AACL2022-Pretrain-Language-Model-Tutorial/

近年来,基于深度学习的自然语言处理(NLP)已经成为主流研究,比传统方法有了显著改进。在所有深度学习方法中,在感兴趣的下游任务上微调自监督预训练语言模型(PLM)已经成为NLP任务中的标准流程。自ELMo (Peters等人,2018年)和BERT (Devlin等人,2019年)于2018年提出以来,从PLM微调的模型在各种任务中占据了许多排行榜,包括问答、自然语言理解、自然语言推理、机器翻译和句子相似度。除了将PLM应用于各种下游任务之外,许多人一直在深入了解PLM的属性和特征,包括PLM表示中编码的语言知识,以及PLM在预训练期间获得的事实知识。虽然PLM第一次被提出已经三年了,但与PLM相关的研究并没有衰退的迹象。

有两个教程专注于自监督学习/ PLM:一个是NAACL 2019的教程(Ruder等人,2019),另一个是AACL 20201的教程。然而,考虑到该领域不断发展的性质,可以想象plm的研究已经取得了重大进展。具体来说,与2019年plm主要由科技巨头持有并用于科学研究相比,如今的PLM被具有不同硬件基础设施和数据量的用户更广泛地应用于各种现实场景中,从而提出了以前从未出现过的问题。已经取得了实质性的进展,包括对PLM的有效性和新的培训范式的可能答案,以使plm更好地部署在更现实的环境中。因此,我们认为通过一个组织良好的教程将PLM的最新进展告知NLP社区是必要和及时的。本教程分为两个部分:为什么PLM工作和PLM如何工作。表1总结了本教程将涉及的内容。本教程旨在促进NLP社区的研究人员对近年来PLM进展有一个更全面的看法,并将这些新出现的技术应用于他们感兴趣的领域。

教程结构预训练语言模型是在大规模语料库上以自监督方式进行预训练的语言模型。传统的自监督预训练任务主要涉及恢复损坏的输入句子,或自回归语言建模。在对这些PLM进行预训练后,可以对下游任务进行微调。按照惯例,这些微调协议包括在PLM之上添加一个线性层,并在下游任务上训练整个模型,或将下游任务表述为句子补全任务,并以seq2seq的方式微调下游任务。在下游任务上对PLM进行微调通常会带来非凡的性能提升,这就是plm如此受欢迎的原因。在教程的第一部分(估计40分钟)中,我们将总结一些发现,这些发现部分解释了为什么PLM会导致出色的下游性能。其中一些结果帮助研究人员设计了更好的预训练和微调方法。在第二部分(估计2小时20分钟)中,我们将介绍如何预训练和微调PLM的最新进展;本部分中介绍的新技术已经被证明在实现卓越性能的同时,在硬件资源、训练数据和模型参数方面带来了显著的效率。

成为VIP会员查看完整内容
75

相关内容

近年来,预训练模型(例如ELMo、GPT、BERT和XLNet等)的快速发展大幅提升了诸多NLP任务的整体水平,同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型,它的特点包括:第一,可以使用大规模无标注纯文本语料进行训练;第二,可以用于各类下游NLP任务,不是针对某项定制的,但以后可用在下游NIP任务上,你不需要为下游任务专门设计一种神经网络,或者提供一种结构,直接在几种给定的固定框架中选择一种进行 fine-tune,就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【斯坦福课程】基础模型进展
专知会员服务
49+阅读 · 2023年1月15日
专知会员服务
74+阅读 · 2021年7月21日
预训练语言模型fine-tuning近期进展概述
专知会员服务
37+阅读 · 2021年4月9日
【AAAI2021】预训练语言模型最新进展,附113页ppt和视频
专知会员服务
64+阅读 · 2021年2月23日
专知会员服务
312+阅读 · 2020年11月24日
【教程】自然语言处理中的迁移学习原理,41 页PPT
专知会员服务
95+阅读 · 2020年2月8日
中文预训练模型研究进展
专知
7+阅读 · 2022年7月22日
赛尔笔记 | 自然语言处理中的迁移学习(上)
哈工大SCIR
16+阅读 · 2019年10月17日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
Arxiv
31+阅读 · 2023年1月8日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
28+阅读 · 2021年10月1日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员