【斯坦福大学AI】BERT, ELMo， & GPT-2:上下文化的单词表示是怎样的? - 专知

会员服务 ·

0

【斯坦福大学AI】BERT, ELMo， & GPT-2:上下文化的单词表示是怎样的?

2020 年 3 月 28 日 专知

在ELMo、BERT和GPT-2中，上层比下层产生更多特定于上下文的表示。但是，这些模型对单词的上下文环境非常不同:在调整了各向异性之后，ELMo中相同句子中的单词之间的相似性最高，而GPT-2中几乎不存在。

平均而言，在一个词的上下文化表示中，只有不到5%的差异可以用静态嵌入来解释。因此，即使在最佳情况下，静态词嵌入也不能很好地替代上下文词。不过，上下文表示可以用来创建一种更强大的静态嵌入类型:BERT的低层上下文表示的主要组件比GloVe和FastText要好得多!如果你有兴趣沿着这些线阅读更多，看看:

The Dark Secrets of BERT (Rogers et al., 2019)
Evolution of Representations in the Transformer (Voita et al., 2019)
Cross-Lingual Alignment of Contextual Word Embeddings (Schuster et al., 2019)
The Illustrated BERT, ELMo, and co. (Alammar, 2019)

http://ai.stanford.edu/blog/contextual/

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“CWR” 就可以获取《【斯坦福大学AI】BERT, ELMo， & GPT-2:上下文化的单词表示是怎样的?》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

ELMo

近年来，研究人员通过文本上下文信息分析获得更好的词向量。ELMo是其中的翘楚，在多个任务、多个数据集上都有显著的提升。所以，它是目前最好用的词向量，the-state-of-the-art的方法。这篇文章发表在2018年的NAACL上，outstanding paper award。下面就简单介绍一下这个“神秘”的词向量模型。

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

58+阅读 · 2020年6月29日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知会员服务

189+阅读 · 2020年4月4日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

57+阅读 · 2020年3月6日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

112+阅读 · 2020年1月7日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【NeurIPS2019演讲】伯克利Pieter Abbeel，通过元强化学习实现更好的基于模型的RL(Better Model-based RL through Meta RL)

【NeurIPS2019演讲】伯克利Pieter Abbeel，通过元强化学习实现更好的基于模型的RL(Better Model-based RL through Meta RL)

专知会员服务

33+阅读 · 2019年12月13日

【百度】上下文化知识图谱嵌入，CoKE: Contextualized Knowledge Graph Embedding

【百度】上下文化知识图谱嵌入，CoKE: Contextualized Knowledge Graph Embedding

专知会员服务

80+阅读 · 2019年11月8日

BERT技术体系综述论文：40项分析探究BERT如何work

BERT技术体系综述论文：40项分析探究BERT如何work

专知

50+阅读 · 2020年3月1日

基于Hugging Face的Transformer库，300行实现命名实体识别

基于Hugging Face的Transformer库，300行实现命名实体识别

专知

119+阅读 · 2020年2月25日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

面试题：预训练方法 BERT和OpenAI GPT有什么区别？

面试题：预训练方法 BERT和OpenAI GPT有什么区别？

七月在线实验室

15+阅读 · 2019年5月15日

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

专知

49+阅读 · 2019年3月7日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

图解2018年领先的两大NLP模型：BERT和ELMo

图解2018年领先的两大NLP模型：BERT和ELMo

新智元

9+阅读 · 2018年12月14日

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

DeepTech深科技

5+阅读 · 2018年10月14日

自然语言处理(NLP)前沿进展报告（PPT下载）

自然语言处理(NLP)前沿进展报告（PPT下载）

专知

23+阅读 · 2018年9月29日

Weakly-Supervised Deep Learning for Domain Invariant Sentiment Classification

Arxiv

4+阅读 · 2019年10月29日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model

Arxiv

3+阅读 · 2019年2月11日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

VIP会员

相关主题

斯坦福大学 (Stanford University)

上下文表示

相关VIP内容

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

58+阅读 · 2020年6月29日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知会员服务

189+阅读 · 2020年4月4日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

57+阅读 · 2020年3月6日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

112+阅读 · 2020年1月7日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【NeurIPS2019演讲】伯克利Pieter Abbeel，通过元强化学习实现更好的基于模型的RL(Better Model-based RL through Meta RL)

【NeurIPS2019演讲】伯克利Pieter Abbeel，通过元强化学习实现更好的基于模型的RL(Better Model-based RL through Meta RL)

专知会员服务

33+阅读 · 2019年12月13日

【百度】上下文化知识图谱嵌入，CoKE: Contextualized Knowledge Graph Embedding

【百度】上下文化知识图谱嵌入，CoKE: Contextualized Knowledge Graph Embedding

专知会员服务

80+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

BERT技术体系综述论文：40项分析探究BERT如何work

BERT技术体系综述论文：40项分析探究BERT如何work

专知

50+阅读 · 2020年3月1日

基于Hugging Face的Transformer库，300行实现命名实体识别

基于Hugging Face的Transformer库，300行实现命名实体识别

专知

119+阅读 · 2020年2月25日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

面试题：预训练方法 BERT和OpenAI GPT有什么区别？

面试题：预训练方法 BERT和OpenAI GPT有什么区别？

七月在线实验室

15+阅读 · 2019年5月15日

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

专知

49+阅读 · 2019年3月7日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

图解2018年领先的两大NLP模型：BERT和ELMo

图解2018年领先的两大NLP模型：BERT和ELMo

新智元

9+阅读 · 2018年12月14日

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

DeepTech深科技

5+阅读 · 2018年10月14日

自然语言处理(NLP)前沿进展报告（PPT下载）

自然语言处理(NLP)前沿进展报告（PPT下载）

专知

23+阅读 · 2018年9月29日

相关论文

Weakly-Supervised Deep Learning for Domain Invariant Sentiment Classification

Arxiv

4+阅读 · 2019年10月29日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model

Arxiv

3+阅读 · 2019年2月11日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

大家都在搜

大型语言模型

CMU博士论文

软件无线电

国防科技创新

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员