在ELMo、BERT和GPT-2中,上层比下层产生更多特定于上下文的表示。但是,这些模型对单词的上下文环境非常不同:在调整了各向异性之后,ELMo中相同句子中的单词之间的相似性最高,而GPT-2中几乎不存在。
平均而言,在一个词的上下文化表示中,只有不到5%的差异可以用静态嵌入来解释。因此,即使在最佳情况下,静态词嵌入也不能很好地替代上下文词。不过,上下文表示可以用来创建一种更强大的静态嵌入类型:BERT的低层上下文表示的主要组件比GloVe和FastText要好得多!如果你有兴趣沿着这些线阅读更多,看看:
The Dark Secrets of BERT (Rogers et al., 2019) Evolution of Representations in the Transformer (Voita et al., 2019) Cross-Lingual Alignment of Contextual Word Embeddings (Schuster et al., 2019) The Illustrated BERT, ELMo, and co. (Alammar, 2019)