【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

掩蔽语言建模(MLM)的预训练方法，如BERT，通过用[掩码]替换一些token来破坏输入，然后训练一个模型来重建原始token。虽然它们在迁移到下游的NLP任务时会产生良好的结果，但它们通常需要大量的计算才能有效。作为一种替代方案，我们提出了一种更具样本效率的预训练任务，称为替换token检测。我们的方法不是屏蔽输入，而是用从小型生成器网络中取样的可信替代方案替换一些令牌，从而破坏了输入。然后，我们不是训练一个模型来预测损坏的令牌的原始身份，而是训练一个判别模型来预测损坏的输入中的每个令牌是否被生成器样本替换。深入的实验表明，这种新的训练前任务比MLM更有效，因为该任务是在所有的输入标记上定义的，而不仅仅是被屏蔽的小子集。结果，在相同的模型大小、数据和计算条件下，通过我们的方法学习的上下文表示大大优于BERT学习的上下文表示。小型模型的收益尤其出色劲; 例如，我们在一个GPU上训练一个模型4天，该模型在GLUE自然语言理解基准上的性能优于GPT(使用30倍以上的计算进行训练)。我们的方法在规模上也运行良好，它的性能与RoBERTa和XLNet相当，但使用的计算不到它们的1/4，并且在使用相同数量的计算时性能优于它们。

成为VIP会员查看完整内容

相关内容

Google

关注 77

一家美国的跨国科技企业，致力于互联网搜索、云计算、广告技术等领域，由当时在斯坦福大学攻读理学博士的拉里·佩奇和谢尔盖·布林共同创建。创始之初，Google 官方的公司使命为「整合全球范围的信息，使人人皆可访问并从中受益」。 Google 开发并提供了大量基于互联网的产品与服务，其主要利润来自于 AdWords 等广告服务。

2004 年 8 月 19 日，公司以「GOOG」为代码正式登陆纳斯达克交易所。

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日