论文题目

Few Shot Network Compression via Cross Distillation

论文摘要

模型压缩已被广泛应用于获得轻量化的深层神经网络。然而,大多数流行的方法需要使用足够的训练数据进行微调以确保准确性,这可能会受到隐私和安全问题的挑战。作为隐私性和性能之间的折衷,本文研究了少镜头网络压缩:在每类样本数较少的情况下,如何有效地压缩性能可以忽略不计的网络?少镜头网络压缩的核心挑战在于在推理过程中原始网络的高估计误差,因为压缩后的网络很容易过度适应少数训练实例。估计误差能够很好地预测和积累层,最终决定网络输出。为了解决这个问题,我们提出了一种新的分层知识提取方法cross蒸馏。通过将教师网络和学生网络的隐含层交织在一起,可以有效地减少层内累积的估计误差。该方法提供了一个通用的框架,与流行的网络压缩技术(如剪枝)兼容。在基准数据集上进行的大量实验表明,当只有少量训练实例可用时,交叉蒸馏可以显著提高学生网络的准确性。

论文作者

郝丽百,贾翔悟,Irwin King,Michael Lyu,香港中文大学。

成为VIP会员查看完整内容
25

相关内容

[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
33+阅读 · 2020年7月5日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
37+阅读 · 2020年2月21日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
30+阅读 · 2019年6月14日
WWW 2019微软亚洲研究院6篇入选论文一览
微软研究院AI头条
7+阅读 · 2019年5月14日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
7+阅读 · 2019年2月7日
手把手教你构建ResNet残差网络
专知
38+阅读 · 2018年4月27日
千万不要错过!ICLR-2018精品论文解析
深度学习与NLP
8+阅读 · 2018年3月7日
Arxiv
5+阅读 · 2020年3月16日
VIP会员
相关VIP内容
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
33+阅读 · 2020年7月5日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
37+阅读 · 2020年2月21日
相关资讯
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
30+阅读 · 2019年6月14日
WWW 2019微软亚洲研究院6篇入选论文一览
微软研究院AI头条
7+阅读 · 2019年5月14日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
7+阅读 · 2019年2月7日
手把手教你构建ResNet残差网络
专知
38+阅读 · 2018年4月27日
千万不要错过!ICLR-2018精品论文解析
深度学习与NLP
8+阅读 · 2018年3月7日
微信扫码咨询专知VIP会员