3分钟看懂史上最强NLP模型BERT

会员服务 ·

3分钟看懂史上最强NLP模型BERT

2019 年 2 月 27 日 新智元

新智元报道

来源：Medium

编辑：元子

【新智元导读】本文对BERT的原理、技术细节以及如何应用于实际场景中，做了简明扼要的介绍。看完本文相信您会对BERT为什么被认为是当前最好的NLP模型、实现原理以及适用场景有所了解。

目前最好的自然语言预训练方法无疑是BERT。它的工作流程分为两步：

首先，使用大量未标记的数据，以预训练、也就是无人监督的方式学习语言表达。

然后，使用少量经过标记的训练数据对模型进行fine-tune，以监督学习的方式，执行多种监督任务。

预训练机器学习模型已经在包括视觉、自然语言处理在内的各个领域取得了成功。

详解BERT及其原理

BERT是Bidirectional Encoder Representations from Transformers的缩写，是一种新型的语言模型，通过联合调节所有层中的双向Transformer来训练预训练深度双向表示。

它基于谷歌2017年发布的Transformer架构，通常的Transformer使用一组编码器和解码器网络，而BERT只需要一个额外的输出层，对预训练进行fine-tune，就可以满足各种任务，根本没有必要针对特定任务对模型进行修改。

BERT将多个Transformer编码器堆叠在一起。Transformer基于著名的多头注意力（Multi-head Attention）模块，该模块在视觉和语言任务方面都取得了巨大成功。

BERT的先进性基于两点：首先，使用Masked Langauge Model（MLM）和Next Sentense Prediction（NSP）的新预训练任务；其次，大量数据和计算能力满足BERT的训练强度。

相比之下，像Word2Vec、ELMO、OpenAI GPT等传统SOTA生成预训练方法，使用从左到右的单向训练，或者浅双向，均无法做到BERT的双向性。

MLM

MLM可以从文本执行双向学习，即允许模型从单词前后相邻的单词，学习每个单词的上下文，这是传统方法做不到的。

MLM预训练任务将文本转换为符号，并使用符号表示作为训练的输入和输出。15%的符号随机子集在训练期间被屏蔽（类似被隐藏起来），目标函数则用来预测符号识别的正确率。

这与使用单向预测作为目标、或使用从左到右和从右到左训练，来近似双向性的传统训练方法形成了对比。

但是MLM中的BERT屏蔽策略，将模型偏向于实际的单词，还没有数据显示这种偏见对训练所产生的影响。

NSP

NSP使得BERT可以通过预测上下句之间是否连贯来得出句子之间的关系。

给出50％正确上下句配对，并补充50％的随机上下句配对，然后对模型进行训练。

MLM和NSP是同时进行的。

数据和TPU/GPU runtime

BERT的训练总共使用了33亿单词。其中25亿来自维基百科，剩下8亿来自BooksCorpus。

训练使用TPU完成，GPU估算如下所示。

使用2500-392000标记的样品进行fine-tune。重要的是，100K以上训练样本的数据集在各种超参数上表现出强大的性能。

每个fine-tune实验在单个云TPU上运行1小时，在GPU上需要运行几个小时不等。

结果显示，BERT优于11项NLP任务。在SQUAD和SWAG两个任务中，BERT成为第一个超越人类的NLP模型！

BERT能够解决的实际任务类型

BERT预训练了104种语言，已在TensorFlow和Pytorch中实现并开源。Clone地址：

https：//github.com/google-research/Bert

BERT可以针对几种类型的任务进行fine-tune。例如文本分类、文本相似性、问答、文本标签、如词性、命名实体识别等。

但是，预训练BERT是很贵的，除非使用类似于Nvidia V100这样的TPU或GPU。

BERT人员还发布了一个单独的多语种模型，该模型使用整个维基百科的100种语言进行训练，性能比单语种的低几个百分点。

参考链接：

https://cloud.google.com/tpu/docs/deciding-pod-versus-tpu

https://en.wikipedia.org/wiki/Tensor_processing_unit

http://timdettmers.com/2018/10/17/tpus-vs-gpus-for-transformers-bert/

【加入社群】

新智元AI技术+产业社群招募中，欢迎对AI技术+产业落地感兴趣的同学，加小助手微信号：aiera2015_2 入群;通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名 - 公司 - 职位;专业群审核较严，敬请谅解）。

登录查看更多

相关内容

BERT

关注 101

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

115+阅读 · 2020年1月7日

BERT进展2019四篇必读论文

专知会员服务

70+阅读 · 2020年1月2日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【MLA 2019】自然语言处理中的表示学习进展：从Transfomer到BERT，复旦大学邱锡鹏

专知会员服务

100+阅读 · 2019年11月15日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

详解谷歌最强NLP模型BERT（理论+实战）

AI100

11+阅读 · 2019年1月18日

图解2018年领先的两大NLP模型：BERT和ELMo

新智元

9+阅读 · 2018年12月14日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈

人工智能头条

10+阅读 · 2018年10月25日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Learned in Translation: Contextualized Word Vectors

Arxiv

6+阅读 · 2018年6月20日

VIP会员