BERT技术体系综述论文:40项分析探究BERT如何work

2020 年 3 月 1 日 专知

地址:

https://www.zhuanzhi.ai/paper/44db3b362059bbca8231eb95fe4a5164


基于Transformer的模型目前在NLP中得到了广泛的应用,但我们对它们的内部工作原理仍然知之甚少。本文综合了40多项分析研究,对著名的BERT模型(Devlin et al 2019)的已知情况进行了描述。我们还提供了对模型及其训练机制的拟议修改的概述。然后我们概述了进一步研究的方向。


概述


自2017年推出以来,Transformers(Vaswani et al 2017)掀起了NLP的风暴,提供了增强的并行化和更好的长依赖建模。最著名的基于Transformers 的模型是BERT (Devlin et al 2019),他们在许多基准测试中获得了最先进的结果,并集成在谷歌搜索中,提升了10%的查询准确率。


虽然很明显BERT和其他基于Transformer的模型工作得非常好,但是不太清楚为什么,这限制了架构的进一步假设驱动的改进。与CNNs不同,Transformer几乎没有认知动机,而且这些模型的大小限制了我们进行预训练实验和消融研究的能力。这解释了过去一年里大量的研究试图理解BERT表现背后的原因。


本文概述了迄今为止所了解到的情况,并强调了仍未解决的问题。我们重点研究BERT学习的知识的类型,这些知识在哪里体现,如何学习,以及提出的改进方法。


BERT架构


从根本上说,BERT是一堆由多个“头”组成的Transformer 编码器层,即全连接神经网络增强了一个自我注意机制。对于序列中的每个输入标记,每个头计算键、值和查询向量,这些向量用于创建加权表示。将同一层中所有磁头的输出合并并通过全连接层运行。每个层都用一个跳过连接进行包装,并在它之后应用层规范化。


图1 BERT模型


目录

  • BERT嵌入

  • BERT拥有什么知识

  • 局部化语言知识

  • 训练BERT

  • BERT模型尺寸

  • 多语言BERT






更多请到专知下载论文查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“BERT模型” 就可以获取BERT技术综述论文和讲解PPT》专知下载链接


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
50

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
【图神经网络(GNN)结构化数据分析】
专知会员服务
115+阅读 · 2020年3月22日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
110+阅读 · 2019年11月25日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
【资源】最新BERT相关论文清单汇总
专知
33+阅读 · 2019年10月2日
知识图谱中的深度学习技术应用概述
深度学习与NLP
11+阅读 · 2018年9月13日
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
Arxiv
6+阅读 · 2019年9月25日
Arxiv
15+阅读 · 2019年9月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
6+阅读 · 2019年4月8日
VIP会员
相关VIP内容
相关论文
Top
微信扫码咨询专知VIP会员