Knowledge distillation, aimed at transferring the knowledge from a heavy teacher network to a lightweight student network, has emerged as a promising technique for compressing neural networks. However, due to the capacity gap between the heavy teacher and the lightweight student, there still exists a significant performance gap between them. In this paper, we see knowledge distillation in a fresh light, using the knowledge gap, or the residual, between a teacher and a student as guidance to train a much more lightweight student, called a res-student. We combine the student and the res-student into a new student, where the res-student rectifies the errors of the former student. Such a residual-guided process can be repeated until the user strikes the balance between accuracy and cost. At inference time, we propose a sample-adaptive strategy to decide which res-students are not necessary for each sample, which can save computational cost. Experimental results show that we achieve competitive performance with 18.04$\%$, 23.14$\%$, 53.59$\%$, and 56.86$\%$ of the teachers' computational costs on the CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet datasets. Finally, we do thorough theoretical and empirical analysis for our method.


翻译:旨在将知识从重教师网络转移到轻量级学生网络的知识蒸馏,已成为压缩神经网络的一种有希望的技术,然而,由于重教师和轻量级学生的能力差距,它们之间仍然存在着巨大的绩效差距。在本文中,我们看到知识蒸馏以新的光线,利用知识差距或残余,将教师和学生之间的知识蒸馏作为培训较轻学生的指南,称为 " 新生学生 " 。我们把学生和再生学生合并为新学生,使学生能够纠正前学生的错误。在用户达到准确与成本之间的平衡之前,可以重复这种留级制导流程。在推断时,我们提出了一个抽样调整战略,以决定每个样本不需要哪些再生,这可以节省计算成本。实验结果表明,我们取得了18.04美元、23.14美元、53.59美元和56.86美元的新学生纠正了前学生的错误。这种留级制流程可以重复到用户达到准确与成本之间的平衡。 在推断时,我们提出了一个抽样调整战略,决定每个样本不需要哪些再生,这可以节省计算成本。实验结果表明,我们实现了18.04美元、23.14美元、53.59美元、53.98.98美元和56.86美元的教师图像网络最终数据、CIAR-10模型计算方法。

0
下载
关闭预览

相关内容

耶鲁大学《分布式系统理论》笔记,491页pdf
专知会员服务
45+阅读 · 2020年7月29日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
95+阅读 · 2020年3月25日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
【TED】什么让我们生病
英语演讲视频每日一推
7+阅读 · 2019年1月23日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
Arxiv
32+阅读 · 2020年3月23日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
VIP会员
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
【TED】什么让我们生病
英语演讲视频每日一推
7+阅读 · 2019年1月23日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员