BERT技术体系综述论文：40项分析探究BERT如何work - 专知

会员服务 ·

0

BERT技术体系综述论文：40项分析探究BERT如何work

2020 年 3 月 1 日 专知

地址：

https://www.zhuanzhi.ai/paper/44db3b362059bbca8231eb95fe4a5164

基于Transformer的模型目前在NLP中得到了广泛的应用，但我们对它们的内部工作原理仍然知之甚少。本文综合了40多项分析研究，对著名的BERT模型(Devlin et al 2019)的已知情况进行了描述。我们还提供了对模型及其训练机制的拟议修改的概述。然后我们概述了进一步研究的方向。

概述

自2017年推出以来，Transformers（Vaswani et al 2017）掀起了NLP的风暴，提供了增强的并行化和更好的长依赖建模。最著名的基于Transformers 的模型是BERT (Devlin et al 2019)，他们在许多基准测试中获得了最先进的结果，并集成在谷歌搜索中，提升了10%的查询准确率。

虽然很明显BERT和其他基于Transformer的模型工作得非常好，但是不太清楚为什么，这限制了架构的进一步假设驱动的改进。与CNNs不同，Transformer几乎没有认知动机，而且这些模型的大小限制了我们进行预训练实验和消融研究的能力。这解释了过去一年里大量的研究试图理解BERT表现背后的原因。

本文概述了迄今为止所了解到的情况，并强调了仍未解决的问题。我们重点研究BERT学习的知识的类型，这些知识在哪里体现，如何学习，以及提出的改进方法。

BERT架构

从根本上说，BERT是一堆由多个“头”组成的Transformer 编码器层，即全连接神经网络增强了一个自我注意机制。对于序列中的每个输入标记，每个头计算键、值和查询向量，这些向量用于创建加权表示。将同一层中所有磁头的输出合并并通过全连接层运行。每个层都用一个跳过连接进行包装，并在它之后应用层规范化。

图1 BERT模型

目录：

BERT嵌入
BERT拥有什么知识
局部化语言知识
训练BERT
BERT模型尺寸
多语言BERT

更多请到专知下载论文查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“BERT模型” 就可以获取《BERT技术综述论文和讲解PPT》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

50

相关内容

BERT

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

最新《生成式对抗网络》技术综述课程，70页ppt带你学习GAN进展

最新《生成式对抗网络》技术综述课程，70页ppt带你学习GAN进展

专知会员服务

218+阅读 · 2020年6月20日

最新《深度多模态数据分析》综述论文，26页pdf

最新《深度多模态数据分析》综述论文，26页pdf

专知会员服务

302+阅读 · 2020年6月16日

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知会员服务

154+阅读 · 2020年3月29日

【图神经网络(GNN)结构化数据分析】

【图神经网络(GNN)结构化数据分析】

专知会员服务

117+阅读 · 2020年3月22日

BERT到底如何work的？A Primer in BERTology: What we know about how BERT works

BERT到底如何work的？A Primer in BERTology: What we know about how BERT works

专知会员服务

50+阅读 · 2020年2月28日

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

专知会员服务

45+阅读 · 2020年1月23日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知会员服务

112+阅读 · 2019年11月25日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

不可错过！普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

不可错过！普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知

32+阅读 · 2020年3月29日

【资源】最新BERT相关论文清单汇总

【资源】最新BERT相关论文清单汇总

专知

33+阅读 · 2019年10月2日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【NAACL2019】182页PPT带你回顾自然语言推断的前世今生

【NAACL2019】182页PPT带你回顾自然语言推断的前世今生

专知

36+阅读 · 2019年6月4日

【干货】伯克利2019全栈深度学习课程（附下载）

【干货】伯克利2019全栈深度学习课程（附下载）

专知

26+阅读 · 2019年4月28日

【最新综述】无监督网络表示学习综述，附18页全文下载

【最新综述】无监督网络表示学习综述，附18页全文下载

专知

28+阅读 · 2019年3月20日

(2019)斯坦福CS224n深度学习自然语言处理课程(已开放Slides)

(2019)斯坦福CS224n深度学习自然语言处理课程(已开放Slides)

专知

15+阅读 · 2019年3月15日

【课程讲义】176页哥德堡大学人工神经网络讲义

【课程讲义】176页哥德堡大学人工神经网络讲义

专知

17+阅读 · 2019年1月24日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

知识图谱中的深度学习技术应用概述

知识图谱中的深度学习技术应用概述

深度学习与NLP

11+阅读 · 2018年9月13日

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

A Primer in BERTology: What we know about how BERT works

A Primer in BERTology: What we know about how BERT works

Arxiv

34+阅读 · 2020年2月27日

Visualizing and Measuring the Geometry of BERT

Visualizing and Measuring the Geometry of BERT

Arxiv

7+阅读 · 2019年10月28日

Deep Universal Graph Embedding Neural Network

Arxiv

6+阅读 · 2019年9月25日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

Arxiv

10+阅读 · 2019年9月4日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Convolutional Self-Attention Network

Arxiv

6+阅读 · 2019年4月8日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

相关主题

相关VIP内容

最新《生成式对抗网络》技术综述课程，70页ppt带你学习GAN进展

最新《生成式对抗网络》技术综述课程，70页ppt带你学习GAN进展

专知会员服务

218+阅读 · 2020年6月20日

最新《深度多模态数据分析》综述论文，26页pdf

最新《深度多模态数据分析》综述论文，26页pdf

专知会员服务

302+阅读 · 2020年6月16日

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知会员服务

154+阅读 · 2020年3月29日

【图神经网络(GNN)结构化数据分析】

【图神经网络(GNN)结构化数据分析】

专知会员服务

117+阅读 · 2020年3月22日

BERT到底如何work的？A Primer in BERTology: What we know about how BERT works

BERT到底如何work的？A Primer in BERTology: What we know about how BERT works

专知会员服务

50+阅读 · 2020年2月28日

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

专知会员服务

45+阅读 · 2020年1月23日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知会员服务

112+阅读 · 2019年11月25日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

不可错过！普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

不可错过！普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知

32+阅读 · 2020年3月29日

【资源】最新BERT相关论文清单汇总

【资源】最新BERT相关论文清单汇总

专知

33+阅读 · 2019年10月2日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【NAACL2019】182页PPT带你回顾自然语言推断的前世今生

【NAACL2019】182页PPT带你回顾自然语言推断的前世今生

专知

36+阅读 · 2019年6月4日

【干货】伯克利2019全栈深度学习课程（附下载）

【干货】伯克利2019全栈深度学习课程（附下载）

专知

26+阅读 · 2019年4月28日

【最新综述】无监督网络表示学习综述，附18页全文下载

【最新综述】无监督网络表示学习综述，附18页全文下载

专知

28+阅读 · 2019年3月20日

(2019)斯坦福CS224n深度学习自然语言处理课程(已开放Slides)

(2019)斯坦福CS224n深度学习自然语言处理课程(已开放Slides)

专知

15+阅读 · 2019年3月15日

【课程讲义】176页哥德堡大学人工神经网络讲义

【课程讲义】176页哥德堡大学人工神经网络讲义

专知

17+阅读 · 2019年1月24日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

知识图谱中的深度学习技术应用概述

知识图谱中的深度学习技术应用概述

深度学习与NLP

11+阅读 · 2018年9月13日

相关论文

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

A Primer in BERTology: What we know about how BERT works

A Primer in BERTology: What we know about how BERT works

Arxiv

34+阅读 · 2020年2月27日

Visualizing and Measuring the Geometry of BERT

Visualizing and Measuring the Geometry of BERT

Arxiv

7+阅读 · 2019年10月28日

Deep Universal Graph Embedding Neural Network

Arxiv

6+阅读 · 2019年9月25日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

Arxiv

10+阅读 · 2019年9月4日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Convolutional Self-Attention Network

Arxiv

6+阅读 · 2019年4月8日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员