NLP自然语言处理在高德各个业务线发挥重要作用,例如动态事件命名实时识别,搜索场景用户语义理解,共享出行通话文本自动判责等。

而NLP领域近期最重要的进展当属预训练模型,Google发布的BERT预训练语言模型一经推出就霸占了NLP各大榜单,提升了诸多 NLP 任务的性能,在11种不同NLP测试中创出最佳成绩,预训练模型成为自然语言理解主要趋势之一。

预训练模型通常包括两个阶段: 第一阶段是在大型语料库根据给定上下文预测特定文本。 第二阶段是在特定的下游任务进行finetuning。

BERT的强大毫无疑问,但由于模型有上亿参数量体型庞大,单个样本计算一次的开销动辄上百毫秒,因而给部署线上服务带来很大的困扰,如何让BERT瘦身是工业界以及学术界重点攻坚问题。

Hinton的文章"Distilling the Knowledge in a Neural Network"首次提出了知识蒸馏的概念,将teacher知识压缩到student网络,student网络与teacher网络具有相同的预测能力但拥有更快的推理速度,极大节省了计算资源。

目前前沿的技术有微软的 BERT-PKD (Patient Knowledge Distillation for BERT),huggingface 的 DistilBERT,以及华为TinyBERT。其基本思路都是减少 transformer encoding 的层数和 hidden size 大小,实现细节上各有不同,主要差异体现在 loss 的设计上。

然而知识蒸馏最核心问题是如何捕捉到模型潜在语义信息,而之前工作焦点在loss设计上,而这种方式让模型关注在单个样本的表达信息细节上,对于捕捉潜在语义信息无能为力。

高德智能技术中心研发团队在工作中设计了对比学习框架进行知识蒸馏,并在此基础上提出COS-NCE LOSS,通过优化COS-NCE LOSS拉近正样本,并拉远负样本距离,能够让模型有效的学习到潜在语义表达信息(LRC-BERT对比DistillBERT,BERT-PKD并不限制模型的结构,student网络可以灵活的选择模型结构以及特征维度)。

同时为进一步让LRC-BERT更加有效的学习,我们设计了两阶段训练过程。最后LRC-BERT在word vector embedding layer引入梯度扰动技术提升模型鲁棒性。

本文的主要贡献点概括如下:

  • 提出了对比学习框架进行知识蒸馏,在此基础上提出COS-NCE LOSS可以有效的捕捉潜在语义信息。
  • 梯度扰动技术首次引入到知识蒸馏中,在实验中验证其能够提升模型的鲁棒性。
  • 提出使用两阶段模型训练方法更加高效的提取中间层潜在语义信息。

本文在General Language Understanding Evaluation (GLUE)评测集合取得了蒸馏模型的SOTA效果。

成为VIP会员查看完整内容
26

相关内容

通过潜在空间的对比损失最大限度地提高相同数据样本的不同扩充视图之间的一致性来学习表示。对比式自监督学习技术是一类很有前途的方法,它通过学习编码来构建表征,编码使两个事物相似或不同
专知会员服务
64+阅读 · 2021年2月21日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知会员服务
40+阅读 · 2021年1月9日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
12+阅读 · 2020年12月12日
【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
62+阅读 · 2020年8月19日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
BERT 瘦身之路:Distillation,Quantization,Pruning
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
8篇论文梳理BERT相关模型进展与反思 | MSRA出品
量子位
11+阅读 · 2019年9月15日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
7+阅读 · 2019年2月27日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
4+阅读 · 2019年9月5日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
VIP会员
相关VIP内容
专知会员服务
64+阅读 · 2021年2月21日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知会员服务
40+阅读 · 2021年1月9日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
12+阅读 · 2020年12月12日
【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
62+阅读 · 2020年8月19日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
相关资讯
BERT 瘦身之路:Distillation,Quantization,Pruning
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
8篇论文梳理BERT相关模型进展与反思 | MSRA出品
量子位
11+阅读 · 2019年9月15日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
7+阅读 · 2019年2月27日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
微信扫码咨询专知VIP会员