论文题目
Few Shot Network Compression via Cross Distillation
论文摘要
模型压缩已被广泛应用于获得轻量化的深层神经网络。然而,大多数流行的方法需要使用足够的训练数据进行微调以确保准确性,这可能会受到隐私和安全问题的挑战。作为隐私性和性能之间的折衷,本文研究了少镜头网络压缩:在每类样本数较少的情况下,如何有效地压缩性能可以忽略不计的网络?少镜头网络压缩的核心挑战在于在推理过程中原始网络的高估计误差,因为压缩后的网络很容易过度适应少数训练实例。估计误差能够很好地预测和积累层,最终决定网络输出。为了解决这个问题,我们提出了一种新的分层知识提取方法cross蒸馏。通过将教师网络和学生网络的隐含层交织在一起,可以有效地减少层内累积的估计误差。该方法提供了一个通用的框架,与流行的网络压缩技术(如剪枝)兼容。在基准数据集上进行的大量实验表明,当只有少量训练实例可用时,交叉蒸馏可以显著提高学生网络的准确性。
论文作者
郝丽百,贾翔悟,Irwin King,Michael Lyu,香港中文大学。