With the increasing popularity of deep learning on edge devices, compressing large neural networks to meet the hardware requirements of resource-constrained devices became a significant research direction. Numerous compression methodologies are currently being used to reduce the memory sizes and energy consumption of neural networks. Knowledge distillation (KD) is among such methodologies and it functions by using data samples to transfer the knowledge captured by a large model (teacher) to a smaller one(student). However, due to various reasons, the original training data might not be accessible at the compression stage. Therefore, data-free model compression is an ongoing research problem that has been addressed by various works. In this paper, we point out that catastrophic forgetting is a problem that can potentially be observed in existing data-free distillation methods. Moreover, the sample generation strategies in some of these methods could result in a mismatch between the synthetic and real data distributions. To prevent such problems, we propose a data-free KD framework that maintains a dynamic collection of generated samples over time. Additionally, we add the constraint of matching the real data distribution in sample generation strategies that target maximum information gain. Our experiments demonstrate that we can improve the accuracy of the student models obtained via KD when compared with state-of-the-art approaches on the SVHN, Fashion MNIST and CIFAR100 datasets.


翻译:随着在边缘设备上深层学习越来越受欢迎,压缩大型神经网络以满足资源受限制装置硬件要求的大型神经网络成为一个重要的研究方向。目前正在使用许多压缩方法来减少神经网络的内存尺寸和能量消耗。知识蒸馏(KD)是这种方法之一,它通过使用数据样本将大型模型(教师)所获取的知识转让给较小的模型(学生)而发挥作用。然而,由于各种原因,原始培训数据可能无法在压缩阶段获得。因此,无数据模型压缩是一个持续的研究问题,各种工作已经解决了这一问题。在本文件中,我们指出,灾难性的遗忘是一个问题,在现有的无数据蒸馏方法中可以观察到这一问题。此外,其中一些方法的抽样生成战略可能导致合成和真实数据分配之间的不匹配。为了防止出现这些问题,我们提议了一个无数据KDFAR框架,在以最大程度信息为目标的样本生成战略中,我们增加了匹配真实数据分配的制约因素。我们的实验表明,在使用SFAR-D模型时,我们可以通过S-D改进学生的S-FAR-HS-S-N模型的精确度。

0
下载
关闭预览

相关内容

【斯坦福2021新书】决策算法,694页pdf阐述不确定性决策
专知会员服务
255+阅读 · 2021年1月27日
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
已删除
将门创投
8+阅读 · 2019年6月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2022年1月5日
Arxiv
45+阅读 · 2019年12月20日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
VIP会员
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
已删除
将门创投
8+阅读 · 2019年6月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员