【Google论文】ALBERT:自我监督学习语言表达的精简BERT - 专知VIP

会员服务 ·

0

BERT · Google · 深度学习 · 学术论文 · 自然语言处理 ·

2019 年 11 月 4 日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文摘要：

预先训练自然语言表示时，增加模型大小可改善下游任务的性能。但是，由于GPU / TPU内存的限制，更长的训练时间以及意外的模型降级，在某些时候，进一步的模型增加变得更加困难。为了解决这些问题，我们提出了两种参数减少技术，以降低内存消耗并提高BERT的训练速度。全面的经验证据表明，与原始BERT相比，我们提出的方法所导致的模型可扩展性更好。我们还使用了一个自我监督的损失，该损失集中于对句子间的连贯性进行建模，并表明它始终可以帮助多句子输入的下游任务。因此，我们的最佳模型在GLUE，RACE和SQuAD基准上建立了最新的技术成果，而参数却比BERT-large少。

论文目录：

介绍（Introduction）
相关工作（Related work）
ALBERT因素
- 模型架构(Model Architecture Choices)
- 模型设置(Model Setup)
实验（Experiments）
- 实验设置（ Experimental Setup）
- 评估标准（ Evaluation Benchmarks ）
- BERT与ALBERT的对比（Overall Comparison Between BERT and ALBERT）
- 参数嵌入(Factorized Embedding Parameterization)
- 跨层参数共享(Cross-Layer Parameter Sharing)
- 句子排序预测（Sentence Order Prediction ）
- 网络深度和宽度的影响(Effect of Network Depth and Width)
- ……
讨论(Discussion)

成为VIP会员查看完整内容

24

相关内容

BERT

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

专知会员服务

85+阅读 · 2020年3月18日

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

专知会员服务

42+阅读 · 2020年3月17日

图神经网络表达能力的研究综述，41页pdf

图神经网络表达能力的研究综述，41页pdf

专知会员服务

173+阅读 · 2020年3月10日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【Google论文强烈推荐】ALBERT:基于精简BERT的自我监督学习的语言表示，ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

【Google论文强烈推荐】ALBERT:基于精简BERT的自我监督学习的语言表示，ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

专知会员服务

24+阅读 · 2019年12月21日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

单语言表征如何迁移到多语言去？

单语言表征如何迁移到多语言去？

AI科技评论

5+阅读 · 2019年11月21日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

量子位

3+阅读 · 2019年6月23日

站在BERT肩膀上的NLP新秀们（PART III）

站在BERT肩膀上的NLP新秀们（PART III）

AINLP

11+阅读 · 2019年6月18日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

PaperWeekly

8+阅读 · 2019年6月3日

谷歌BERT斩获最佳长论文！自然语言顶会NAACL2019最佳论文5篇出炉

谷歌BERT斩获最佳长论文！自然语言顶会NAACL2019最佳论文5篇出炉

专知

5+阅读 · 2019年4月11日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

Towards Making the Most of BERT in Neural Machine Translation

Arxiv

5+阅读 · 2020年3月26日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Revealing the Dark Secrets of BERT

Revealing the Dark Secrets of BERT

Arxiv

4+阅读 · 2019年9月11日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Recursive Neural Network Based Preordering for English-to-Japanese Machine Translation

Arxiv

7+阅读 · 2018年5月25日

VIP会员

相关主题

自然语言处理

相关VIP内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

专知会员服务

85+阅读 · 2020年3月18日

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

专知会员服务

42+阅读 · 2020年3月17日

图神经网络表达能力的研究综述，41页pdf

图神经网络表达能力的研究综述，41页pdf

专知会员服务

173+阅读 · 2020年3月10日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【Google论文强烈推荐】ALBERT:基于精简BERT的自我监督学习的语言表示，ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

【Google论文强烈推荐】ALBERT:基于精简BERT的自我监督学习的语言表示，ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations

专知会员服务

24+阅读 · 2019年12月21日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《自适应训练辅助系统概念导论及其在空战指挥官加速培训中的应用》125页

《美陆军近战整合企业现代化计划（2025—2026）》最新报告

以色列-伊朗空战：短暂而激烈冲突的启示

《动态作战支援演习框架构建》80页

相关资讯

单语言表征如何迁移到多语言去？

单语言表征如何迁移到多语言去？

AI科技评论

5+阅读 · 2019年11月21日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

量子位

3+阅读 · 2019年6月23日

站在BERT肩膀上的NLP新秀们（PART III）

站在BERT肩膀上的NLP新秀们（PART III）

AINLP

11+阅读 · 2019年6月18日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

PaperWeekly

8+阅读 · 2019年6月3日

谷歌BERT斩获最佳长论文！自然语言顶会NAACL2019最佳论文5篇出炉

谷歌BERT斩获最佳长论文！自然语言顶会NAACL2019最佳论文5篇出炉

专知

5+阅读 · 2019年4月11日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

相关论文

Towards Making the Most of BERT in Neural Machine Translation

Arxiv

5+阅读 · 2020年3月26日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Revealing the Dark Secrets of BERT

Revealing the Dark Secrets of BERT

Arxiv

4+阅读 · 2019年9月11日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Recursive Neural Network Based Preordering for English-to-Japanese Machine Translation

Arxiv

7+阅读 · 2018年5月25日

微信扫码咨询专知VIP会员