论文摘要:

预先训练自然语言表示时,增加模型大小可改善下游任务的性能。 但是,由于GPU / TPU内存的限制,更长的训练时间以及意外的模型降级,在某些时候,进一步的模型增加变得更加困难。 为了解决这些问题,我们提出了两种参数减少技术,以降低内存消耗并提高BERT的训练速度。 全面的经验证据表明,与原始BERT相比,我们提出的方法所导致的模型可扩展性更好。 我们还使用了一个自我监督的损失,该损失集中于对句子间的连贯性进行建模,并表明它始终可以帮助多句子输入的下游任务。 因此,我们的最佳模型在GLUE,RACE和SQuAD基准上建立了最新的技术成果,而参数却比BERT-large少。

论文目录:

  1. 介绍(Introduction)

  2. 相关工作(Related work)

  3. ALBERT因素

    • 模型架构(Model Architecture Choices)
    • 模型设置(Model Setup)
  4. 实验(Experiments)

    • 实验设置( Experimental Setup)
    • 评估标准( Evaluation Benchmarks )
    • BERT与ALBERT的对比(Overall Comparison Between BERT and ALBERT)
    • 参数嵌入(Factorized Embedding Parameterization)
    • 跨层参数共享(Cross-Layer Parameter Sharing)
    • 句子排序预测(Sentence Order Prediction )
    • 网络深度和宽度的影响(Effect of Network Depth and Width)
    • ……
  5. 讨论(Discussion)

成为VIP会员查看完整内容
23

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
图神经网络表达能力的研究综述,41页pdf
专知会员服务
169+阅读 · 2020年3月10日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
单语言表征如何迁移到多语言去?
AI科技评论
5+阅读 · 2019年11月21日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
站在BERT肩膀上的NLP新秀们(PART III)
AINLP
11+阅读 · 2019年6月18日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关论文
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
微信扫码咨询专知VIP会员