【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解 - 专知VIP

会员服务 ·

3

对比学习 · 语义知识 · 预训练语言模型 · 知识蒸馏 ·

2020 年 12 月 31 日

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

NLP自然语言处理在高德各个业务线发挥重要作用，例如动态事件命名实时识别，搜索场景用户语义理解，共享出行通话文本自动判责等。

而NLP领域近期最重要的进展当属预训练模型，Google发布的BERT预训练语言模型一经推出就霸占了NLP各大榜单，提升了诸多 NLP 任务的性能，在11种不同NLP测试中创出最佳成绩，预训练模型成为自然语言理解主要趋势之一。

预训练模型通常包括两个阶段：第一阶段是在大型语料库根据给定上下文预测特定文本。第二阶段是在特定的下游任务进行finetuning。

BERT的强大毫无疑问，但由于模型有上亿参数量体型庞大，单个样本计算一次的开销动辄上百毫秒，因而给部署线上服务带来很大的困扰，如何让BERT瘦身是工业界以及学术界重点攻坚问题。

Hinton的文章"Distilling the Knowledge in a Neural Network"首次提出了知识蒸馏的概念，将teacher知识压缩到student网络，student网络与teacher网络具有相同的预测能力但拥有更快的推理速度，极大节省了计算资源。

目前前沿的技术有微软的 BERT-PKD (Patient Knowledge Distillation for BERT)，huggingface 的 DistilBERT，以及华为TinyBERT。其基本思路都是减少 transformer encoding 的层数和 hidden size 大小，实现细节上各有不同，主要差异体现在 loss 的设计上。

然而知识蒸馏最核心问题是如何捕捉到模型潜在语义信息，而之前工作焦点在loss设计上，而这种方式让模型关注在单个样本的表达信息细节上，对于捕捉潜在语义信息无能为力。

高德智能技术中心研发团队在工作中设计了对比学习框架进行知识蒸馏，并在此基础上提出COS-NCE LOSS，通过优化COS-NCE LOSS拉近正样本，并拉远负样本距离，能够让模型有效的学习到潜在语义表达信息（LRC-BERT对比DistillBERT，BERT-PKD并不限制模型的结构，student网络可以灵活的选择模型结构以及特征维度）。

同时为进一步让LRC-BERT更加有效的学习，我们设计了两阶段训练过程。最后LRC-BERT在word vector embedding layer引入梯度扰动技术提升模型鲁棒性。

本文的主要贡献点概括如下：

提出了对比学习框架进行知识蒸馏，在此基础上提出COS-NCE LOSS可以有效的捕捉潜在语义信息。
梯度扰动技术首次引入到知识蒸馏中，在实验中验证其能够提升模型的鲁棒性。
提出使用两阶段模型训练方法更加高效的提取中间层潜在语义信息。

本文在General Language Understanding Evaluation (GLUE)评测集合取得了蒸馏模型的SOTA效果。

成为VIP会员查看完整内容

27

相关内容

对比学习

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法，它通过学习编码来构建表征，编码使两个事物相似或不同

AAAI2021 | 图神经网络研究进展解读

专知会员服务

65+阅读 · 2021年2月21日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

【AAAI2021】图神经网路自监督预训练策略

专知会员服务

41+阅读 · 2021年1月9日

【AAAI2021】“可瘦身”的生成式对抗网络

【AAAI2021】“可瘦身”的生成式对抗网络

专知会员服务

13+阅读 · 2020年12月12日

【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT

【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT

专知会员服务

19+阅读 · 2020年10月21日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

专知会员服务

14+阅读 · 2020年3月8日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

BERT 瘦身之路：Distillation，Quantization，Pruning

BERT 瘦身之路：Distillation，Quantization，Pruning

AINLP

10+阅读 · 2019年10月22日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

8篇论文梳理BERT相关模型进展与反思 | MSRA出品

8篇论文梳理BERT相关模型进展与反思 | MSRA出品

量子位

11+阅读 · 2019年9月15日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

PaperWeekly

8+阅读 · 2019年6月3日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

COVID-19 Tweets Analysis through Transformer Language Models

Arxiv

0+阅读 · 2021年2月27日

LRC-BERT: Latent-representation Contrastive Knowledge Distillation for Natural Language Understanding

LRC-BERT: Latent-representation Contrastive Knowledge Distillation for Natural Language Understanding

Arxiv

6+阅读 · 2020年12月14日

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

Arxiv

9+阅读 · 2020年9月26日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Revealing the Dark Secrets of BERT

Revealing the Dark Secrets of BERT

Arxiv

4+阅读 · 2019年9月11日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

Fine-tuning BERT for Joint Entity and Relation Extraction in Chinese Medical Text

Fine-tuning BERT for Joint Entity and Relation Extraction in Chinese Medical Text

Arxiv

6+阅读 · 2019年8月21日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

VIP会员

相关主题

预训练语言模型

相关VIP内容

AAAI2021 | 图神经网络研究进展解读

专知会员服务

65+阅读 · 2021年2月21日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

【AAAI2021】图神经网路自监督预训练策略

专知会员服务

41+阅读 · 2021年1月9日

【AAAI2021】“可瘦身”的生成式对抗网络

【AAAI2021】“可瘦身”的生成式对抗网络

专知会员服务

13+阅读 · 2020年12月12日

【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT

【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT

专知会员服务

19+阅读 · 2020年10月21日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

专知会员服务

14+阅读 · 2020年3月8日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《攻击场景描述形式化模型研究》

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

相关资讯

BERT 瘦身之路：Distillation，Quantization，Pruning

BERT 瘦身之路：Distillation，Quantization，Pruning

AINLP

10+阅读 · 2019年10月22日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

8篇论文梳理BERT相关模型进展与反思 | MSRA出品

8篇论文梳理BERT相关模型进展与反思 | MSRA出品

量子位

11+阅读 · 2019年9月15日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

PaperWeekly

8+阅读 · 2019年6月3日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

相关论文

COVID-19 Tweets Analysis through Transformer Language Models

Arxiv

0+阅读 · 2021年2月27日

LRC-BERT: Latent-representation Contrastive Knowledge Distillation for Natural Language Understanding

LRC-BERT: Latent-representation Contrastive Knowledge Distillation for Natural Language Understanding

Arxiv

6+阅读 · 2020年12月14日

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

Arxiv

9+阅读 · 2020年9月26日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Revealing the Dark Secrets of BERT

Revealing the Dark Secrets of BERT

Arxiv

4+阅读 · 2019年9月11日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

Fine-tuning BERT for Joint Entity and Relation Extraction in Chinese Medical Text

Fine-tuning BERT for Joint Entity and Relation Extraction in Chinese Medical Text

Arxiv

6+阅读 · 2019年8月21日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

微信扫码咨询专知VIP会员