UniLMv2:统一预训练伪掩码语言模型

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

论文链接:https://www.zhuanzhi.ai/paper/a6628400809ab320e597b1d4d1fca177

基于大规模语料的预训练语言模型在各种自然语言处理任务带来了巨大的提升。受UniLMv1 ([NeurIPS-19]Unified Language Model Pre-training for Natural Language Understanding and Generation)的启发,本篇论文提出“伪掩码语言模型”(PMLM),可以同时对两种不同的语言建模目标进行高效训练,从而使其更好地适用于语言理解(如文本分类、自动问答)和语言生成(如文本摘要、问题生成)任务。

我们将语言模型预训练目标分为三类。第一类依赖于自编码语言建模(Autoencoding, AE)。例如在 BERT 中使用的掩码语言建模(MLM)随机的在文本序列中遮盖一部分单词,在 Transformer 的双向编码结果之上,对每个被遮盖的单词进行分别还原。第二类方法基于自回归建模(Autoregressive, AR)。不同于 AE,目标单词被依次预测,且依赖于先前的结果。第三类是我们提出的半自回归语言建模(Partially Autoregressive, PAR),对短语级别进行依赖建模,从而避免了 AR可能带来的过度局部依赖问题。

伪掩码语言模型(PMLM)

在新提出的伪掩码语言模型(PMLM)中,我们对 AE 以及 PAR 这两个语言建模目标进行了融合。在共享模型参数的基础上,尽可能对上下文的编码结果进行了复用,以达到高效训练的目的。通过构造合理的自注意力模型掩码与位置编码,PMLM 可以在一次计算中同时对两种语言建模任务进行训练,且无需进行上下文编码的冗余计算。

在自动问答、复述判别、情感分类、文本摘要、问题生成等一系列任务上的测评,说明了这一方法的有效性。

成为VIP会员查看完整内容
26

相关内容

近年来,预训练模型(例如ELMo、GPT、BERT和XLNet等)的快速发展大幅提升了诸多NLP任务的整体水平,同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型,它的特点包括:第一,可以使用大规模无标注纯文本语料进行训练;第二,可以用于各类下游NLP任务,不是针对某项定制的,但以后可用在下游NIP任务上,你不需要为下游任务专门设计一种神经网络,或者提供一种结构,直接在几种给定的固定框架中选择一种进行 fine-tune,就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
35+阅读 · 2020年8月23日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
63+阅读 · 2020年8月19日
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
22+阅读 · 2020年6月30日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
78+阅读 · 2020年5月24日
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
5+阅读 · 2018年1月18日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
35+阅读 · 2020年8月23日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
63+阅读 · 2020年8月19日
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
22+阅读 · 2020年6月30日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
78+阅读 · 2020年5月24日
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
相关论文
Arxiv
15+阅读 · 2019年9月11日
Arxiv
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
5+阅读 · 2018年1月18日
Arxiv
3+阅读 · 2017年8月15日
微信扫码咨询专知VIP会员