在资源受限的场景中,部署像BERT这样的预训练Transformer模型到下游任务上是具有挑战性的,因为它们的推理成本很高,并且随着输入序列长度的增加而迅速增加。在这项工作中,我们提出了一种约束意识的并且使用排名提炼的令牌剪枝方法ToP,它在输入序列通过各层时选择性地移除不必要的令牌,使模型在保持准确性的同时提高在线推理速度。ToP通过一种排名提炼的令牌提炼技术克服了传统自注意力机制中令牌重要性排名不准确的限制,该技术从未剪枝模型的最后一层提炼有效的令牌排名到剪枝模型的早期层。然后,ToP引入了一种从粗糙到精细的剪枝方法,它自动选择Transformer层的最佳子集,并通过改进的𝐿0正则化在这些层内优化token剪枝决策。在GLUE基准测试和SQuAD任务上的大量实验表明,ToP在准确性和加速方面超越了最先进的令牌剪枝和模型压缩方法。ToP将BERT的平均FLOPs降低了8.1倍,同时在GLUE上实现了具有竞争力的准确性,并在Intel CPU上提供了最高7.4倍的实际延迟加速。

https://www.zhuanzhi.ai/paper/052ae1af5bdb61e9121ba73b5ab31c1c

成为VIP会员查看完整内容
20

相关内容

【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
36+阅读 · 2023年5月27日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
36+阅读 · 2021年6月3日
专知会员服务
18+阅读 · 2020年10月13日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【NeurIPS2022】分布式自适应元强化学习
专知
3+阅读 · 2022年10月8日
【ICML2022】熵因果推理:图的可辨识性
专知
1+阅读 · 2022年8月6日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
VIP会员
相关VIP内容
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
36+阅读 · 2023年5月27日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
36+阅读 · 2021年6月3日
专知会员服务
18+阅读 · 2020年10月13日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员