【MLA 2019】自然语言处理中的表示学习进展：从Transfomer到BERT，复旦大学邱锡鹏 - 专知VIP

会员服务 ·

21

BERT · Transformer · 预训练语言模型 · 邱锡鹏 · 复旦大学 ·

2019 年 11 月 15 日

【MLA 2019】自然语言处理中的表示学习进展：从Transfomer到BERT，复旦大学邱锡鹏

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

题目：自然语言处理中的表示学习进展：从Transfomer到BERT

报告人：邱锡鹏博士复旦大学

摘要：目前全连接自注意力模型（比如Transformer）在自然语言处理领域取得了广泛的成功。本报告主要介绍我们在自注意力模型方面的一些工作，主要涵盖两部分内容：1）Transformer及其改进模型：通过分析Transformer的基本原理和优缺点，提出一些改进模型Star-Transformer、Multi-Scale Transformer等。2）预训练的Transformer模型的迁移方法：虽然预训练的Transformer模型（比如BERT、GPT等）在很多自然语言任务上都取得了非常好的性能，我们通过任务转换、继续预训练、多任务学习等方法来进一步提高其迁移能力。最后，对Transformer模型及其未来发展趋势进行展望。

成为VIP会员查看完整内容

20191104-MLA2019-自然语言处理中的表示学习进展：从Transfomer到BERT.pdf

相关内容

BERT

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【DeepMind硬核课】深度学习自然语言处理前沿进展，附103页ppt

【DeepMind硬核课】深度学习自然语言处理前沿进展，附103页ppt

专知会员服务

135+阅读 · 2020年6月28日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

115+阅读 · 2020年1月7日

神经网络与深度学习，复旦大学邱锡鹏老师

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

122+阅读 · 2019年9月24日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

新智元

8+阅读 · 2019年1月31日

从Word Embedding到Bert模型——自然语言处理预训练技术发展史

从Word Embedding到Bert模型——自然语言处理预训练技术发展史

AI100

4+阅读 · 2018年11月20日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

相关主题

预训练语言模型

相关VIP内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【DeepMind硬核课】深度学习自然语言处理前沿进展，附103页ppt

【DeepMind硬核课】深度学习自然语言处理前沿进展，附103页ppt

专知会员服务

135+阅读 · 2020年6月28日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

115+阅读 · 2020年1月7日

神经网络与深度学习，复旦大学邱锡鹏老师

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

122+阅读 · 2019年9月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

锚定情报：合成欺骗时代的地面真相

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

相关资讯

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

新智元

8+阅读 · 2019年1月31日

从Word Embedding到Bert模型——自然语言处理预训练技术发展史

从Word Embedding到Bert模型——自然语言处理预训练技术发展史

AI100

4+阅读 · 2018年11月20日

相关论文

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

微信扫码咨询专知VIP会员