BERT进展2019四篇必读论文

1、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（BERT论文）

谷歌BERT斩获最佳长论文！自然语言顶会NAACL2019最佳论文5篇出炉

Google NAACL2019 最佳论文

作者：Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

摘要：本文介绍一种称为BERT的新语言表征模型，意为来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的语言表征模型(Peters等，2018; Radford等，2018)，BERT旨在基于所有层的左、右语境来预训练深度双向表征。因此，预训练的BERT表征可以仅用一个额外的输出层进行微调，进而为很多任务(如问答和语言推理)创建当前最优模型，无需对任务特定架构做出大量修改。BERT的概念很简单，但实验效果很强大。它刷新了11个NLP任务的当前最优结果，包括将GLUE基准提升至80.4%(7.6%的绝对改进)、将MultiNLI的准确率提高到86.7%(5.6%的绝对改进)，以及将SQuADv1.1问答测试F1的得分提高至93.2分(1.5分绝对提高)——比人类性能还高出2.0分。

网址：

https://www.zhuanzhi.ai/paper/7acdc843627c496a2ad7fb2785357dec

BERT的slides： BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

2、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Google CMU

作者：Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov

摘要：Transformer 网络具有学习更长期依赖性的潜力，但这种潜力往往会受到语言建模中上下文长度固定的限制。因此，我们提出了一种叫做 Transformer-XL 的新神经架构来解决这一问题，它可以在不破坏时间一致性的情况下，让 Transformer 超越固定长度学习依赖性。具体来说，它是由片段级的循环机制和全新的位置编码策略组成的。我们的方法不仅可以捕获更长的依赖关系，还可以解决上下文碎片化的问题。Transformer-XL 学习到的依赖性比 RNN 学习到的长 80%，比标准 Transformer 学到的长 450%，无论在长序列还是短序列中都得到了更好的结果，而且在评估时比标准 Transformer 快 1800+ 倍。此外，我们还提升了 bpc 和困惑度的当前最佳结果，在 enwiki8 上 bpc 从 1.06 提升至 0.99，在 text8 上从 1.13 提升至 1.08，在 WikiText-103 上困惑度从 20.5 提升到 18.3，在 One Billion Word 上从 23.7 提升到 21.8，在宾州树库（不经过微调的情况下）上从 55.3 提升到 54.5。我们的代码、预训练模型以及超参数在 TensorFlow 和 PyTorch 中都可以使用。。

网址：

https://www.zhuanzhi.ai/paper/5c1ec941e06a20e4966a3db298b45211

3、XLNet: Generalized Autoregressive Pretraining for Language Understanding

Google CMU

作者：Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

摘要：由于上下文双向建模的表达能力更强，降噪自编码类型中的典型代表BERT能够比自回归语言模型取得更好的结果。即，上下文建模获得双向的信息在Language Understanding中是很重要的。但是BERT存在以下不足：(1)在输入端依赖mask的掩模的方式，遮蔽部分的输入信息。(2)忽略了被mask位置之间的依赖性。这两点在预训练-微调两个阶段存在不符。即，上述2个方面在预训练和微调这2个阶段之间都是有差异的。在正视了上述优缺点之后，本文提出一种通用（或者广义，英语原文是generalized）的自回归预训练方法：XLNet。XLNet的贡献在于(1)新的双向上下文学习方法：分解输入的顺序，对其进行排列组合，并遍历所有的排列组合，获得最大似然期望。(2)克服BERT自回归中的缺陷。XLNet在预训练中融合Transformer-XL和state-of-the-art自回归模型的优点。实验结果：XLNet在20个任务中超出了BERT，且很多是碾压式地超越。XLNet在其中18个任务中取得了目前最优结果，包括问答、自然语言推理、情感分析和文档排序。

网址：

https://www.zhuanzhi.ai/paper/74979afe231290d0c1ad43d4fab17b09

4、ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

作者：Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

摘要：通常而言，在预训练自然语言表征时增加模型大小可以提升模型在下游任务中的性能。但在某些情况下，由于 GPU/TPU 内存限制、训练时间延长以及意外的模型退化等原因，进一步增加模型大小的难度也随之增加。所以，为了解决这些问题，来自谷歌的研究者提出通过两种参数削减（parameter-reduction）技术来降低内存消耗，加快 BERT 的训练速度。综合实验表明，ALBERT 的扩展效果要优于原始 BERT。此外，他们还使用了聚焦于句间连贯性建模的自监督损失，并证明这种损失对下游任务中的多语句输入有持续帮助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基准测试上都取得了新的 SOTA 效果，并且参数量少于 BERT-large。

网址：

https://www.zhuanzhi.ai/paper/a0067ac863579c6268b0751e12decd04

更多预训练语言模型的论文请上：

https://github.com/thunlp/PLMpapers

成为VIP会员查看完整内容