论文摘要:
预先训练自然语言表示时,增加模型大小可改善下游任务的性能。 但是,由于GPU / TPU内存的限制,更长的训练时间以及意外的模型降级,在某些时候,进一步的模型增加变得更加困难。 为了解决这些问题,我们提出了两种参数减少技术,以降低内存消耗并提高BERT的训练速度。 全面的经验证据表明,与原始BERT相比,我们提出的方法所导致的模型可扩展性更好。 我们还使用了一个自我监督的损失,该损失集中于对句子间的连贯性进行建模,并表明它始终可以帮助多句子输入的下游任务。 因此,我们的最佳模型在GLUE,RACE和SQuAD基准上建立了最新的技术成果,而参数却比BERT-large少。
论文目录:
介绍(Introduction)
相关工作(Related work)
ALBERT因素
实验(Experiments)
讨论(Discussion)