【斯坦福大学AI】BERT, ELMo, & GPT-2:上下文化的单词表示是怎样的?

2020 年 3 月 28 日 专知

在ELMo、BERT和GPT-2中,上层比下层产生更多特定于上下文的表示。但是,这些模型对单词的上下文环境非常不同:在调整了各向异性之后,ELMo中相同句子中的单词之间的相似性最高,而GPT-2中几乎不存在。


平均而言,在一个词的上下文化表示中,只有不到5%的差异可以用静态嵌入来解释。因此,即使在最佳情况下,静态词嵌入也不能很好地替代上下文词。不过,上下文表示可以用来创建一种更强大的静态嵌入类型:BERT的低层上下文表示的主要组件比GloVe和FastText要好得多!如果你有兴趣沿着这些线阅读更多,看看:


  • The Dark Secrets of BERT (Rogers et al., 2019)

  • Evolution of Representations in the Transformer (Voita et al., 2019)

  • Cross-Lingual Alignment of Contextual Word Embeddings (Schuster et al., 2019)

  • The Illustrated BERT, ELMo, and co. (Alammar, 2019)

http://ai.stanford.edu/blog/contextual/


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CWR” 就可以获取【斯坦福大学AI】BERT, ELMo, & GPT-2:上下文化的单词表示是怎样的?》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

近年来,研究人员通过文本上下文信息分析获得更好的词向量。ELMo是其中的翘楚,在多个任务、多个数据集上都有显著的提升。所以,它是目前最好用的词向量,the-state-of-the-art的方法。这篇文章发表在2018年的NAACL上,outstanding paper award。下面就简单介绍一下这个“神秘”的词向量模型。
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
面试题:预训练方法 BERT和OpenAI GPT有什么区别?
七月在线实验室
15+阅读 · 2019年5月15日
图解2018年领先的两大NLP模型:BERT和ELMo
新智元
9+阅读 · 2018年12月14日
自然语言处理(NLP)前沿进展报告(PPT下载)
Arxiv
4+阅读 · 2019年9月5日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
Top
微信扫码咨询专知VIP会员