基于自回归填空的通用语言模型预训练 | 论文荐读 - 专知

会员服务 ·

0

基于自回归填空的通用语言模型预训练 | 论文荐读

2022 年 3 月 14 日 学术头条

作者：

Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, and Jie Tang. GLM: General Language Model Pretraining with Autoregressive Blank Infilling. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL 2022).

Code & Data:

https://www.aminer.cn/pub/622819cdd18a2b26c7ab496a

近年来，在互联网文本上预训练的大规模语言模型大大提高了各种 NLP 任务的最新技术水平，比如在英文维基百科上训练的 BERT 模型，提出时在各种自然语言理解的排行榜上取得了第一名的成绩，在某些任务上甚至取得了 10% 以上的提升。同时，预训练模型的参数规模也在不断增大。2019 年谷歌的 T5 模型首先达到了百亿参数的规模，在多个领域取得了最佳的性能。2020 年 OpenAI 发布的 GPT-3 模型将预训练语言模型的参数提高到了千亿级别，并且展示了惊人的小样本学习能力。然而，现有的预训练模型分为自编码模型、自回归模型和编码器-解码器模型三类，分别适用于自然语言理解、长文本生成和条件文本生成三类任务。没有一种预训练模型可以在所有任务上取得最优的效果。

针对上述问题，我们提出了一个基于自回归填空的通用预训练框架（General Language Modeling，GLM）。通过在一个统一的框架中同时学习双向和单向的注意力机制，模型在预训练阶段同时学习到了上下文表示和自回归生成。在针对下游任务的微调阶段，我们也通过完形填空的形式统一了不同类型的下游任务，从而实现了针对所有自然语言处理任务通用的预训练模型。

我们首先在 SuperGLUE 自然语言理解数据集上进行了评测。从表中我们可以看到，在等量的训练数据下，GLM-Base 的分数比 BERT-Base 要高 4.6%，GLM-Large 的分数比 BERT-Large 要高 5.0%。在同时引入更多的训练数据之后，GLM-RoBERTa 能够超过 T5-Large 的性能，但是只有 T5-Large 一半的参数规模。

然后我们在条件文本生成任务上进一步评估了 GLM 的多任务能力。我们在两个文本摘要数据集 CNN/DailyMail 和 XSum 上进行和测试。结果见下表。可以看出，GLM-RoBERTa 可以取得和 seq2seq 预训练模型 BART 相当的性能，并且稳定超过 T5-Large 模型。

最后我们测试了在语言建模任务上测试了 GLM 的长文本生成能力。可以看出在加入长填空任务之后 GLM 的性能可以接近同等参数的GPT模型。同时，1.25 倍参数的 GLM 模型可以同时在三类任务上取得最优的效果。

点击【阅读原文】查看代码数据

登录查看更多

5

相关内容

预训练

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

基于预训练语言模型的文本生成

基于预训练语言模型的文本生成

专知会员服务

29+阅读 · 2022年1月28日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

学术头条

2+阅读 · 2022年4月11日

有效且稳健的数据增强小样本学习 | 论文荐读

有效且稳健的数据增强小样本学习 | 论文荐读

学术头条

6+阅读 · 2022年3月25日

DeepStruct: 面向结构化预测任务的预训练语言模型 | 论文荐读

DeepStruct: 面向结构化预测任务的预训练语言模型 | 论文荐读

学术头条

2+阅读 · 2022年3月22日

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年2月14日

评估语言模型的句法能力

评估语言模型的句法能力

TensorFlow

1+阅读 · 2022年1月11日

通用模型、全新框架，WavLM语音预训练模型全解

通用模型、全新框架，WavLM语音预训练模型全解

微软研究院AI头条

0+阅读 · 2021年12月23日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

基于高维大规模数据的集成建模方法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于参数估计理论的信息检索风险研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于主干成分的句法统计机器翻译模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于树的句法翻译模型关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

Mono vs Multilingual BERT for Hate Speech Detection and Text Classification: A Case Study in Marathi

Arxiv

0+阅读 · 2022年4月19日

Retrieval-Free Knowledge-Grounded Dialogue Response Generation with Adapters

Arxiv

0+阅读 · 2022年4月18日

Non-autoregressive Transformer-based End-to-end ASR using BERT

Arxiv

0+阅读 · 2022年4月18日

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

Arxiv

0+阅读 · 2022年4月15日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

BERT for Joint Intent Classification and Slot Filling

Arxiv

12+阅读 · 2019年2月28日

VIP会员

相关主题

预训练模型

自然语言理解

相关VIP内容

基于预训练语言模型的文本生成

基于预训练语言模型的文本生成

专知会员服务

29+阅读 · 2022年1月28日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《毁灭算法：解析以色列在加沙的AI军事行动》

【COLT 2025最新教程】语言生成

以机器速度锁定目标：人工智能的能力与局限

【ICML2025】通过在线世界模型规划的持续强化学习

相关资讯

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

学术头条

2+阅读 · 2022年4月11日

有效且稳健的数据增强小样本学习 | 论文荐读

有效且稳健的数据增强小样本学习 | 论文荐读

学术头条

6+阅读 · 2022年3月25日

DeepStruct: 面向结构化预测任务的预训练语言模型 | 论文荐读

DeepStruct: 面向结构化预测任务的预训练语言模型 | 论文荐读

学术头条

2+阅读 · 2022年3月22日

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年2月14日

评估语言模型的句法能力

评估语言模型的句法能力

TensorFlow

1+阅读 · 2022年1月11日

通用模型、全新框架，WavLM语音预训练模型全解

通用模型、全新框架，WavLM语音预训练模型全解

微软研究院AI头条

0+阅读 · 2021年12月23日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

相关基金

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

基于高维大规模数据的集成建模方法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于参数估计理论的信息检索风险研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于主干成分的句法统计机器翻译模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于树的句法翻译模型关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Mono vs Multilingual BERT for Hate Speech Detection and Text Classification: A Case Study in Marathi

Arxiv

0+阅读 · 2022年4月19日

Retrieval-Free Knowledge-Grounded Dialogue Response Generation with Adapters

Arxiv

0+阅读 · 2022年4月18日

Non-autoregressive Transformer-based End-to-end ASR using BERT

Arxiv

0+阅读 · 2022年4月18日

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

Arxiv

0+阅读 · 2022年4月15日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

BERT for Joint Intent Classification and Slot Filling

Arxiv

12+阅读 · 2019年2月28日

大家都在搜

生成式人工智能

军事人工智能

国防科技创新

久别重逢话双塔

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员