在ELMo、BERT和GPT-2中,上层比下层产生更多特定于上下文的表示。但是,这些模型对单词的上下文环境非常不同:在调整了各向异性之后,ELMo中相同句子中的单词之间的相似性最高,而GPT-2中几乎不存在。

平均而言,在一个词的上下文化表示中,只有不到5%的差异可以用静态嵌入来解释。因此,即使在最佳情况下,静态词嵌入也不能很好地替代上下文词。不过,上下文表示可以用来创建一种更强大的静态嵌入类型:BERT的低层上下文表示的主要组件比GloVe和FastText要好得多!如果你有兴趣沿着这些线阅读更多,看看:

The Dark Secrets of BERT (Rogers et al., 2019) Evolution of Representations in the Transformer (Voita et al., 2019) Cross-Lingual Alignment of Contextual Word Embeddings (Schuster et al., 2019) The Illustrated BERT, ELMo, and co. (Alammar, 2019)

成为VIP会员查看完整内容
34

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
ACL 2019 | 理解 BERT 每一层都学到了什么
THU数据派
9+阅读 · 2019年9月9日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
面试题:预训练方法 BERT和OpenAI GPT有什么区别?
七月在线实验室
15+阅读 · 2019年5月15日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
图解2018年领先的两大NLP模型:BERT和ELMo
新智元
9+阅读 · 2018年12月14日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2019年4月21日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关VIP内容
相关资讯
ACL 2019 | 理解 BERT 每一层都学到了什么
THU数据派
9+阅读 · 2019年9月9日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
面试题:预训练方法 BERT和OpenAI GPT有什么区别?
七月在线实验室
15+阅读 · 2019年5月15日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
图解2018年领先的两大NLP模型:BERT和ELMo
新智元
9+阅读 · 2018年12月14日
微信扫码咨询专知VIP会员