题目

BERT到底如何work的?A Primer in BERTology: What we know about how BERT works

关键字

BERT,Transformer,NLP,预训练模型,综述,人工智能

简介

基于Transformer的模型现在已在NLP中广泛使用,但我们对其内部运作仍然知之甚少。 本文描述了迄今为止已知的著名BERT模型(Devlin等人,2019),它综合了40多项分析研究。 我们还提供了对模型及其训练方案的拟议修改的概述。 然后,我们概述了进一步研究的方向。

作者

Anna Rogers, olga Kovaleva, Anna Rumshisky

成为VIP会员查看完整内容
50

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
BERT技术体系综述论文:40项分析探究BERT如何work
专知会员服务
140+阅读 · 2020年3月1日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
如何用最强模型BERT做NLP迁移学习?
AI100
3+阅读 · 2019年2月3日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
4+阅读 · 2018年10月31日
VIP会员
相关资讯
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
如何用最强模型BERT做NLP迁移学习?
AI100
3+阅读 · 2019年2月3日
相关论文
微信扫码咨询专知VIP会员