掩蔽语言建模(MLM)的预训练方法,如BERT,通过用[掩码]替换一些token来破坏输入,然后训练一个模型来重建原始token。虽然它们在迁移到下游的NLP任务时会产生良好的结果,但它们通常需要大量的计算才能有效。作为一种替代方案,我们提出了一种更具样本效率的预训练任务,称为替换token检测。我们的方法不是屏蔽输入,而是用从小型生成器网络中取样的可信替代方案替换一些令牌,从而破坏了输入。然后,我们不是训练一个模型来预测损坏的令牌的原始身份,而是训练一个判别模型来预测损坏的输入中的每个令牌是否被生成器样本替换。深入的实验表明,这种新的训练前任务比MLM更有效,因为该任务是在所有的输入标记上定义的,而不仅仅是被屏蔽的小子集。结果,在相同的模型大小、数据和计算条件下,通过我们的方法学习的上下文表示大大优于BERT学习的上下文表示。小型模型的收益尤其出色劲; 例如,我们在一个GPU上训练一个模型4天,该模型在GLUE自然语言理解基准上的性能优于GPT(使用30倍以上的计算进行训练)。我们的方法在规模上也运行良好,它的性能与RoBERTa和XLNet相当,但使用的计算不到它们的1/4,并且在使用相同数量的计算时性能优于它们。

成为VIP会员查看完整内容
13

相关内容

一家美国的跨国科技企业,致力于互联网搜索、云计算、广告技术等领域,由当时在斯坦福大学攻读理学博士的拉里·佩奇和谢尔盖·布林共同创建。创始之初,Google 官方的公司使命为「整合全球范围的信息,使人人皆可访问并从中受益」。 Google 开发并提供了大量基于互联网的产品与服务,其主要利润来自于 AdWords 等广告服务。

2004 年 8 月 19 日, 公司以「GOOG」为代码正式登陆纳斯达克交易所。
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
44+阅读 · 2020年6月18日
专知会员服务
25+阅读 · 2020年2月15日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
ELECTRA:超越BERT,19年最佳NLP预训练模型
新智元
6+阅读 · 2019年11月6日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
OpenAI「假新闻」生成器GPT-2的最简Python实现
机器之心
4+阅读 · 2019年4月20日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2019年8月22日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
8+阅读 · 2018年11月21日
VIP会员
相关资讯
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
ELECTRA:超越BERT,19年最佳NLP预训练模型
新智元
6+阅读 · 2019年11月6日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
OpenAI「假新闻」生成器GPT-2的最简Python实现
机器之心
4+阅读 · 2019年4月20日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
微信扫码咨询专知VIP会员