在资源受限的情况下,在下游任务上部署像BERT这样的预训练transformer模型是具有挑战性的,因为它们的推断成本很高,并且随着输入序列长度的增加而迅速增长。在这项工作中,我们提出了一个考虑约束的、排序蒸馏的令牌修剪方法ToP,该方法在输入序列通过各层时有选择性地移除不必要的令牌,使模型在保持准确性的同时提高在线推断速度。ToP通过一个排序蒸馏的令牌提取技术克服了传统自注意力机制中令牌重要性排序不准确的限制,该技术从未修剪的模型的最后一层提取有效的令牌排序,应用到被修剪模型的早期层。接着,ToP引入了一种粗到细的修剪方法,自动选择transformer层的最佳子集,并通过改进的𝐿0正则化在这些层内优化令牌修剪决策。在GLUE基准测试和SQuAD任务上的大量实验表明,ToP在准确性和速度上都超过了最先进的令牌修剪和模型压缩方法。ToP使BERT的平均FLOPs减少了8.1倍,同时在GLUE上达到了竞争性的准确率,并在Intel CPU上提供了高达7.4倍的实际延迟加速。

成为VIP会员查看完整内容
21

相关内容

【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
27+阅读 · 2023年4月28日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
21+阅读 · 2021年10月8日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
35+阅读 · 2021年6月3日
【NeurIPS2022】GENIE:高阶去噪扩散求解器
专知
0+阅读 · 2022年11月13日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知
2+阅读 · 2022年9月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2023年9月8日
Arxiv
0+阅读 · 2023年9月8日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
54+阅读 · 2023年3月26日
Arxiv
67+阅读 · 2022年9月7日
VIP会员
相关VIP内容
【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
27+阅读 · 2023年4月28日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
21+阅读 · 2021年10月8日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
35+阅读 · 2021年6月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员