A popular approach to model compression is to train an inexpensive student model to mimic the class probabilities of a highly accurate but cumbersome teacher model. Surprisingly, this two-step knowledge distillation process often leads to higher accuracy than training the student directly on labeled data. To explain and enhance this phenomenon, we cast knowledge distillation as a semiparametric inference problem with the optimal student model as the target, the unknown Bayes class probabilities as nuisance, and the teacher probabilities as a plug-in nuisance estimate. By adapting modern semiparametric tools, we derive new guarantees for the prediction error of standard distillation and develop two enhancements -- cross-fitting and loss correction -- to mitigate the impact of teacher overfitting and underfitting on student performance. We validate our findings empirically on both tabular and image data and observe consistent improvements from our knowledge distillation enhancements.


翻译:一种流行的压缩模型方法就是培训一种廉价的学生模型,以模拟高度准确但繁琐的教师模型的阶级概率。 令人惊讶的是,这种两步知识蒸馏过程往往比直接用标签数据对学生进行的培训更准确。 为了解释和加强这种现象,我们把知识蒸馏作为一种半参数推论问题,以最佳学生模型为目标,以未知的贝耶斯等级概率作为骚扰,以教师概率作为插座干扰估计。我们通过调整现代半参数工具,为标准蒸馏的预测错误提供了新的保证,并发展了两种强化措施 -- -- 交叉装配和损失校正 -- -- 以减轻教师对学生业绩的过装和不足的影响。 我们用实验方法验证了我们关于表格和图像数据的经验性结论,并观察从我们的知识蒸馏改进中取得一致的改进。

0
下载
关闭预览

相关内容

图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
已删除
将门创投
3+阅读 · 2019年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月10日
Arxiv
0+阅读 · 2021年4月17日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员