虽然预训练语言模型(例如BERT)在不同的自然语言处理任务上取得了令人印象深刻的结果,但它们有大量的参数,并承受着巨大的计算和内存成本,这使得它们难以在现实世界中部署。因此,为了降低预训练模型的计算和存储成本,需要对模型进行压缩。在这项工作中,我们的目标是压缩BERT,并解决以下两个具有挑战性的实际问题: (1)压缩算法应该能够输出多个不同大小和延迟的压缩模型,以支持不同内存和延迟限制的设备;(2)算法应与下游任务无关,这样压缩模型一般适用于不同的下游任务。我们利用神经结构搜索(NAS)中的技术,提出了一种有效的BERT压缩方法NAS-BERT。NAS-BERT在精心设计的搜索空间上训练一个大型超级网络,该搜索空间包含各种架构,并输出具有自适应大小和延迟的多个压缩模型。此外,NAS-BERT的训练是在标准的自监督的训练前任务(如掩体语言模型)上进行的,不依赖于特定的下游任务。因此,压缩的模型可以跨任务使用。NAS-BERT的技术挑战在于,在训练前的任务上训练一个大型超级网络是极其昂贵的。我们采用了块搜索、搜索空间剪枝和性能逼近等技术来提高搜索效率和准确性。对GLUE和SQuAD基准数据集的大量实验表明,NAS-BERT可以找到比以前的方法更精确的轻量级模型,并可以直接应用于不同的下游任务,这些任务具有适应的模型规模,以满足不同的内存或延迟需求。

https://www.zhuanzhi.ai/paper/6f115ce6f43323f92838b15e0030f2a4

成为VIP会员查看完整内容
8

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
11+阅读 · 2021年6月20日
专知会员服务
11+阅读 · 2021年3月25日
专知会员服务
44+阅读 · 2021年1月31日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
专知会员服务
44+阅读 · 2020年3月6日
Longformer:超越RoBERTa,为长文档而生的预训练模型
AI科技评论
4+阅读 · 2020年7月25日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
Reformer:一个高效的 Transformer
TensorFlow
9+阅读 · 2020年2月13日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关VIP内容
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
11+阅读 · 2021年6月20日
专知会员服务
11+阅读 · 2021年3月25日
专知会员服务
44+阅读 · 2021年1月31日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
专知会员服务
44+阅读 · 2020年3月6日
相关论文
Arxiv
9+阅读 · 2021年2月8日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
11+阅读 · 2019年6月19日
微信扫码咨询专知VIP会员