基于自回归填空的通用语言模型预训练 | 论文荐读

2022 年 3 月 14 日 学术头条

作者:

Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, and Jie Tang. GLM: General Language Model Pretraining with Autoregressive Blank Infilling. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL 2022).


Code & Data: 

https://www.aminer.cn/pub/622819cdd18a2b26c7ab496a


近年来,在互联网文本上预训练的大规模语言模型大大提高了各种 NLP 任务的最新技术水平,比如在英文维基百科上训练的 BERT 模型,提出时在各种自然语言理解的排行榜上取得了第一名的成绩,在某些任务上甚至取得了 10% 以上的提升。同时,预训练模型的参数规模也在不断增大。2019 年谷歌的 T5 模型首先达到了百亿参数的规模,在多个领域取得了最佳的性能。2020 年 OpenAI 发布的 GPT-3 模型将预训练语言模型的参数提高到了千亿级别,并且展示了惊人的小样本学习能力。然而,现有的预训练模型分为自编码模型、自回归模型和编码器-解码器模型三类,分别适用于自然语言理解、长文本生成和条件文本生成三类任务。没有一种预训练模型可以在所有任务上取得最优的效果。


针对上述问题,我们提出了一个基于自回归填空的通用预训练框架(General Language Modeling,GLM)。通过在一个统一的框架中同时学习双向和单向的注意力机制,模型在预训练阶段同时学习到了上下文表示和自回归生成。在针对下游任务的微调阶段,我们也通过完形填空的形式统一了不同类型的下游任务,从而实现了针对所有自然语言处理任务通用的预训练模型。


我们首先在 SuperGLUE 自然语言理解数据集上进行了评测。从表中我们可以看到,在等量的训练数据下,GLM-Base 的分数比 BERT-Base 要高 4.6%,GLM-Large 的分数比 BERT-Large 要高 5.0%。在同时引入更多的训练数据之后,GLM-RoBERTa 能够超过 T5-Large 的性能,但是只有 T5-Large 一半的参数规模。


然后我们在条件文本生成任务上进一步评估了 GLM 的多任务能力。我们在两个文本摘要数据集 CNN/DailyMail 和 XSum 上进行和测试。结果见下表。可以看出,GLM-RoBERTa 可以取得和 seq2seq 预训练模型 BART 相当的性能,并且稳定超过 T5-Large 模型。

最后我们测试了在语言建模任务上测试了 GLM 的长文本生成能力。可以看出在加入长填空任务之后 GLM 的性能可以接近同等参数的GPT模型。同时,1.25 倍参数的 GLM 模型可以同时在三类任务上取得最优的效果。

点击【阅读原文】查看代码数据

登录查看更多
5

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
41+阅读 · 2021年6月6日
专知会员服务
38+阅读 · 2021年5月16日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
有效且稳健的数据增强小样本学习 | 论文荐读
学术头条
6+阅读 · 2022年3月25日
评估语言模型的句法能力
TensorFlow
1+阅读 · 2022年1月11日
通用模型、全新框架,WavLM语音预训练模型全解
微软研究院AI头条
0+阅读 · 2021年12月23日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
12+阅读 · 2019年2月28日
VIP会员
相关VIP内容
基于预训练语言模型的文本生成
专知会员服务
28+阅读 · 2022年1月28日
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
41+阅读 · 2021年6月6日
专知会员服务
38+阅读 · 2021年5月16日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员