Recent research has found that knowledge distillation can be effective in reducing the size of a network and in increasing generalization. A pre-trained, large teacher network, for example, was shown to be able to bootstrap a student model that eventually outperforms the teacher in a limited label environment. Despite these advances, it still is relatively unclear \emph{why} this method works, that is, what the resulting student model does 'better'. To address this issue, here, we utilize two non-linear, low-dimensional embedding methods (t-SNE and IVIS) to visualize representation spaces of different layers in a network. We perform a set of extensive experiments with different architecture parameters and distillation methods. The resulting visualizations and metrics clearly show that distillation guides the network to find a more compact representation space for higher accuracy already in earlier layers compared to its non-distilled version.


翻译:最近的研究发现,知识蒸馏在缩小网络规模和增加普及方面是有效的。例如,经过预先训练的大型教师网络被证明能够将最终在有限标签环境中优于教师的学生模型套牢。尽管取得了这些进步,但这种方法仍然相对不清楚,即由此产生的学生模型“做得更好”是什么样的。为了解决这个问题,我们使用两种非线性、低维嵌入法(t-SNE和IVIS)将网络不同层的演示空间(t-SNE和IVIS)可视化。我们用不同的建筑参数和蒸馏方法进行了一系列广泛的实验。由此产生的可视化和测量清楚显示,蒸馏法引导网络找到比非蒸馏版更精准的更紧凑的展示空间。

0
下载
关闭预览

相关内容

【2021新书】机器学习模型生产部署实践,161页pdf,
专知会员服务
111+阅读 · 2021年6月11日
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
42+阅读 · 2020年11月22日
【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing
专知会员服务
65+阅读 · 2020年7月12日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
AI科技评论
18+阅读 · 2020年6月29日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
4+阅读 · 2018年7月31日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
0+阅读 · 2021年12月6日
Arxiv
9+阅读 · 2021年6月16日
已删除
Arxiv
32+阅读 · 2020年3月23日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Knowledge Flow: Improve Upon Your Teachers
Arxiv
5+阅读 · 2019年4月11日
VIP会员
相关资讯
ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
AI科技评论
18+阅读 · 2020年6月29日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
4+阅读 · 2018年7月31日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员