预训练方法 BERT和OpenAI GPT有什么区别？

2019 年 7 月 4 日 七月在线实验室

阅读原文无聊的猫gif动图

预训练方法 BERT和OpenAI GPT有什么区别？

解析：

1.GPT在BooksCorpus(800M单词)训练；BERT在BooksCorpus(800M单词)和维基百科(2,500M单词)训练。

2.GPT使用一种句子分隔符([SEP])和分类符词块([CLS])，它们仅在微调时引入；BERT在预训练期间学习[SEP]，[CLS]和句子A/B嵌入。

3.GPT用一个批量32,000单词训练1M步；BERT用一个批量128,000单词训练1M步。

4.GPT对所有微调实验使用的5e-5相同学习率；BERT选择特定于任务的微调学习率，在开发集表现最佳。

就业班来了

依据个人情况定制化教学

名企面试官亲自辅导面试

让你“薪”满意足！

↓扫码查看课程详情↓

AI如果耍起了心眼，人类就像个白痴......

GitHub 4.6万星：微软新命令行开放下载！

戳 “阅读原文”查看课程。

你在看吗？

登录查看更多

相关内容

BERT

关注 101

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

【斯坦福大学AI】BERT, ELMo， & GPT-2:上下文化的单词表示是怎样的?

专知会员服务

35+阅读 · 2020年3月28日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

112+阅读 · 2020年1月7日

【Google论文强烈推荐】ALBERT:基于精简BERT的自我监督学习的语言表示，ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

专知会员服务

24+阅读 · 2019年12月21日

【机器学习课程】Google机器学习速成课程

专知会员服务

169+阅读 · 2019年12月2日

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

机器之心

40+阅读 · 2019年9月5日

面试题：预训练方法 BERT和OpenAI GPT有什么区别？

七月在线实验室

15+阅读 · 2019年5月15日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

手把手教 | 使用Bert预训练模型文本分类（内附源码）

数据派THU

162+阅读 · 2019年3月12日

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

效果惊人的GPT 2.0模型：它告诉了我们什么

AINLP

10+阅读 · 2019年2月16日

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

预训练在自然语言处理的发展: 从Word Embedding到BERT模型

AINLP

16+阅读 · 2018年11月9日

A Primer in BERTology: What we know about how BERT works

Arxiv

34+阅读 · 2020年2月27日

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Arxiv

7+阅读 · 2019年2月3日

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月17日