刚刚，Google发布24个小型BERT模型，直接通过MLM损失进行预训练

会员服务 ·

刚刚，Google发布24个小型BERT模型，直接通过MLM损失进行预训练

2020 年 3 月 13 日 新智元

新智元原创

编辑：鹏飞

【新智元导读】Google刚刚发布了24个小型BERT模型，使用WordPiece masking进行训练，具有更少的层数，在MLM蒸馏的更精细的预训练策略方面极具优势，适用于资源受限的场景，并鼓励构建更紧凑的模型。「新智元急聘主笔、编辑、运营经理、客户经理，添加HR微信（Dr-wly）了解详情。」

Google最新推出24个精简的BERT模型供下载，赶在白色情人节之前为广大NLP研究者送上一份厚礼。

BERT胜在模型大，也败在模型大！

BERT一出世就带着「狂破11项记录」的光环，用压倒性的参数量暴力突围。可以说，BERT的成功，成就成在模型大。但大，一方面成就了BERT，另一方面也成了它无法被更广泛应用的障碍，这体现在三个方面。

障碍一：占资源

巨大的体积使得它必须占用巨大的存储资源，而维护大量存储资源的同时也在不断消耗大量的能源。

障碍二：太耗时

BERT作者Jacob曾提到「BERT-Large模型有24层、2014个隐藏单元，在33亿词量的数据集上需要训练40个Epoch，在8块P100上可能需要1年」。

障碍三：费用高

有人曾经计算过，三大主流模型的训练成本大概是：

BERT：1.2 万美元
GPT-2：4.3 万美元
XLNet：6.1 万美元

为了解决上述问题，人们不断推出精简版BERT

Size matters。其实上述3个问题，源头就在于Size，因此大家开始不断的研究精简版BERT。在资源有限的情况下，小体积的模型有着不言而喻的优势。

DistillBERT：Hugging Face团队在BERT的基础上用知识蒸馏技术训练出来的小型化BERT。模型大小减小了40%（66M），推断速度提升了60%，但性能只降低了约3%。

ALBERT：通过改变模型架构，极大的降低了体积。最小的ALBERT只有12M，最大ALBERT-XXLarge有233M，而BERT-Base就有110M。不过虽然体积下去了，推理速度没有太明显的提升。

TinyBERT：用知识蒸馏的方法来压缩模型。这个模型由华中科大和华为共同出品。

Google亲自推出更小型BERT模型

就在昨天，Google更新了BERT的GitHub仓库，发布了24个较小的BERT模型，仅限英语词汇且不分大小写。

该24个模型使用WordPiece masking进行训练，直接通过MLM损失进行预训练，可以通过标准训练或最终任务提炼针对下游任务进行微调，在MLM蒸馏的更精细的预训练策略方面极具优势。

理论指导来自论文《Well-Read Students Learn Better: On the Importance of Pre-training Compact Models》。论文地址：https://arxiv.org/abs/1908.08962

小的BERT模型只需要按照原有BERT微调方式进行微调即可，只不过在由更大、更精准的teacher制作的知识蒸馏情况下最有效。

需要注意的是，本发行版中的BERT-Base模型仅是出于完整性考虑，在和原始模型相同的条件下进行了重新训练。

GLUE分数：

24个小型BERT下载地址：https://storage.googleapis.com/bert_models/2020_02_20/all_bert_models.zip

【新智元视频直播分享|1小时逐行实现目标检测经典模型】

新智元视频直播公开课上线啦，锁定今天下午15：00-16：00，京东AI特邀专家朱利明在线分享。

【课程简介】：本课程着重讲解如何更好、更快、更强的目标检测YOLO模型，手把手教学带你详解Anchor机制，使用Pytorch逐行实现YOLO模型，让你掌握One-Stage目标检测器原理！

【讲师介绍】：朱利明，京东AI特邀专家，毕业于中国科学院研究生院，主导100+大型商业项目，近二十年算法研发经验。

登录查看更多

相关内容

BERT

关注 100

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

专知会员服务

14+阅读 · 2020年3月8日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【Google论文强烈推荐】ALBERT:基于精简BERT的自我监督学习的语言表示，ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

专知会员服务

24+阅读 · 2019年12月21日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

机器之心

40+阅读 · 2019年9月5日

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

量子位

3+阅读 · 2019年6月23日

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

机器之心

23+阅读 · 2019年6月21日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

5+阅读 · 2019年9月26日

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

14+阅读 · 2018年10月11日

Improving the Transformer Translation Model with Document-Level Context

Arxiv

4+阅读 · 2018年10月8日

VIP会员