掩蔽语言建模(MLM)的预训练方法,如BERT,通过用[掩码]替换一些token来破坏输入,然后训练一个模型来重建原始token。虽然它们在迁移到下游的NLP任务时会产生良好的结果,但它们通常需要大量的计算才能有效。作为一种替代方案,我们提出了一种更具样本效率的预训练任务,称为替换token检测。我们的方法不是屏蔽输入,而是用从小型生成器网络中取样的可信替代方案替换一些令牌,从而破坏了输入。然后,我们不是训练一个模型来预测损坏的令牌的原始身份,而是训练一个判别模型来预测损坏的输入中的每个令牌是否被生成器样本替换。深入的实验表明,这种新的训练前任务比MLM更有效,因为该任务是在所有的输入标记上定义的,而不仅仅是被屏蔽的小子集。结果,在相同的模型大小、数据和计算条件下,通过我们的方法学习的上下文表示大大优于BERT学习的上下文表示。小型模型的收益尤其出色劲; 例如,我们在一个GPU上训练一个模型4天,该模型在GLUE自然语言理解基准上的性能优于GPT(使用30倍以上的计算进行训练)。我们的方法在规模上也运行良好,它的性能与RoBERTa和XLNet相当,但使用的计算不到它们的1/4,并且在使用相同数量的计算时性能优于它们。