Knowledge Distillation in Wide Neural Networks: Risk Bound, Data Efficiency and Imperfect Teacher
知识提炼是一种在教师网络的软输出指导下训练学生网络的策略。它已成为模型压缩和知识转移的成功方法。然而,目前的知识提炼缺乏令人信服的理论知识。另一方面,最近在神经正切核上的发现使我们能够使用网络随机特征的线性模型来近似宽泛的神经网络。在本文中,我们从理论上分析了广义神经网络的知识提炼问题。首先给出了线性化网络模型的转移风险界限。然后我们提出了一个任务训练难度的度量,称为数据效率。基于这一衡量标准,我们表明,对于一个完美的教师,高比例的教师软标签可能是有益的。最后,对于教师不完善的情况,我们发现硬标签可以纠正教师的错误预测,这就解释了硬标签和软标签混合使用的实践。
https://www.zhuanzhi.ai/paper/8fb343feb238db246bcdb59a367b6cbd