Significant memory and computational requirements of large deep neural networks restrict their application on edge devices. Knowledge distillation (KD) is a prominent model compression technique for deep neural networks in which the knowledge of a trained large teacher model is transferred to a smaller student model. The success of knowledge distillation is mainly attributed to its training objective function, which exploits the soft-target information (also known as "dark knowledge") besides the given regular hard labels in a training set. However, it is shown in the literature that the larger the gap between the teacher and the student networks, the more difficult is their training using knowledge distillation. To address this shortcoming, we propose an improved knowledge distillation method (called Annealing-KD) by feeding the rich information provided by the teacher's soft-targets incrementally and more efficiently. Our Annealing-KD technique is based on a gradual transition over annealed soft-targets generated by the teacher at different temperatures in an iterative process, and therefore, the student is trained to follow the annealed teacher output in a step-by-step manner. This paper includes theoretical and empirical evidence as well as practical experiments to support the effectiveness of our Annealing-KD method. We did a comprehensive set of experiments on different tasks such as image classification (CIFAR-10 and 100) and NLP language inference with BERT-based models on the GLUE benchmark and consistently got superior results.


翻译:大型深心神经网络的重要记忆和计算要求限制了其在边缘设备中的应用。知识蒸馏(KD)是深心神经网络的一个突出的模型压缩技术,在这种技术中,受过训练的大型教师模型的知识被转移到一个较小的学生模型。知识蒸馏的成功主要归功于其培训目标功能,它除了在一组培训中固定的硬标签外,还利用软目标信息(又称“暗知识 ” ) 。然而,文献显示,教师与学生网络之间的差距越大,就越难于利用知识蒸馏来培训他们。为了解决这一缺陷,我们建议一种改进的知识蒸馏方法(称为“Annaaling-KD ”),方法是以渐进和更有效的方式为教师软目标提供的丰富信息提供信息。我们的Annaaling-KD技术基于教师在不同温度、反复过程中生成的无线软目标的逐步过渡。因此,学生接受了培训,以一步一步一步地跟踪教师输出知识蒸馏过程。为了解决这一缺陷,我们提出了一种改进知识蒸馏方法(称为Analing-L)的理论和实验结果,以此作为了我们“B-10”的模型。我们用一种长期的理论和实验方法,把理论和实验结果作为不同的实验,作为一种不同的实验,作为不同的基准,作为一种不同的基准,作为一种不同的实验,作为B-10-RO-RO-RO-RO-RO-RO-RO-RO-RO-RO-RO-RO-L的实验法的实验法的实验方法,作为不同的实验方法,作为一种不同的基准。

0
下载
关闭预览

相关内容

ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
3+阅读 · 2018年8月21日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
Arxiv
0+阅读 · 2021年6月8日
已删除
Arxiv
32+阅读 · 2020年3月23日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Knowledge Flow: Improve Upon Your Teachers
Arxiv
5+阅读 · 2019年4月11日
VIP会员
相关VIP内容
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
3+阅读 · 2018年8月21日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
Top
微信扫码咨询专知VIP会员