Various pruning approaches have been proposed to reduce the footprint requirements of Transformer-based language models. Conventional wisdom is that pruning reduces the model expressiveness and thus is more likely to underfit than overfit compared to the original model. However, under the trending pretrain-and-finetune paradigm, we argue that pruning increases the risk of overfitting if pruning was performed at the fine-tuning phase, as it increases the amount of information a model needs to learn from the downstream task, resulting in relative data deficiency. In this paper, we aim to address the overfitting issue under the pretrain-and-finetune paradigm to improve pruning performance via progressive knowledge distillation (KD) and sparse pruning. Furthermore, to mitigate the interference between different strategies of learning rate, pruning and distillation, we propose a three-stage learning framework. We show for the first time that reducing the risk of overfitting can help the effectiveness of pruning under the pretrain-and-finetune paradigm. Experiments on multiple datasets of GLUE benchmark show that our method achieves highly competitive pruning performance over the state-of-the-art competitors across different pruning ratio constraints.


翻译:为了减少基于变异器的语言模型的足迹要求,提出了各种修剪方法,以减少以变异器为基础的语言模型的足迹要求。 常规智慧是,修剪减少了模型的表情,因此比原始模型更可能比过度装饰差。 然而,在趋势式的先发制人和精液模型范式下,我们争辩说,修剪增加了在微调阶段进行修剪时过分装饰的风险,因为它增加了模型需要从下游任务中学习的信息量,从而导致相对的数据不足。在本文中,我们的目标是解决在前排和菲内纳范式下过于适合的问题,以便通过渐进式知识蒸馏(KD)和稀薄式剪裁剪裁来改进运行性业绩。此外,为了减轻不同学习率、修剪裁和蒸馏战略之间的干扰,我们提议了一个三阶段学习框架。我们第一次表明,减少过装配的风险有助于在前排和纤维模型下修剪练的有效性。对多套数据模型的实验表明,GLUE基准测试显示,我们的方法在不同的先导型国家中达到了高度竞争性的业绩限制。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年8月17日
专知会员服务
35+阅读 · 2021年7月9日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
已删除
将门创投
4+阅读 · 2019年4月1日
Arxiv
1+阅读 · 2021年12月16日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2019年8月22日
VIP会员
相关VIP内容
专知会员服务
20+阅读 · 2021年8月17日
专知会员服务
35+阅读 · 2021年7月9日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
相关资讯
已删除
将门创投
4+阅读 · 2019年4月1日
Top
微信扫码咨询专知VIP会员