In real applications, different computation-resource devices need different-depth networks (e.g., ResNet-18/34/50) with high-accuracy. Usually, existing methods either design multiple networks and train them independently, or construct depth-level/width-level dynamic neural networks which is hard to prove the accuracy of each sub-net. In this article, we propose an elegant Depth-Level Dynamic Neural Network (DDNN) integrated different-depth sub-nets of similar architectures. To improve the generalization of sub-nets, we design the Embedded-Knowledge-Distillation (EKD) training mechanism for the DDNN to implement knowledge transfer from the teacher (full-net) to multiple students (sub-nets). Specifically, the Kullback-Leibler (KL) divergence is introduced to constrain the posterior class probability consistency between full-net and sub-nets, and self-attention distillation on the same resolution feature of different depth is addressed to drive more abundant feature representations of sub-nets. Thus, we can obtain multiple high-accuracy sub-nets simultaneously in a DDNN via the online knowledge distillation in each training iteration without extra computation cost. Extensive experiments on CIFAR-10/100, and ImageNet datasets demonstrate that sub-nets in DDNN with EKD training achieve better performance than individually training networks while preserving the original performance of full-nets.


翻译:在实际应用中,不同的计算资源装置需要具有高度准确性的不同深度网络(如ResNet-18/34/50),通常,现有方法要么设计多个网络并对其进行独立培训,要么建立深度/高度动态神经网络,很难证明每个子网的准确性。在本篇文章中,我们建议建立一个优雅的深度水平动态神经网络(DDNN),整合类似结构的不同深度子网。为了改进原始网络的概括化,我们为DDNN设计了嵌入式知识蒸馏(EKD)培训机制,以便从教师(全网)向多个学生(子网)进行知识转让。具体地说,Kullback-Lebel (KL) 差异在于限制全网和子网之间的等级概率一致性,以及在不同深度的同一分辨率的自我蒸馏,目的是推动更丰富的子网络的特征展示。因此,我们可以在不通过内部数据库进行高级精确性能测试的同时,通过内部网络进行多种高性能性能测试,然后通过内部网络进行高级性能测试。

0
下载
关闭预览

相关内容

专知会员服务
43+阅读 · 2021年5月26日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
31+阅读 · 2021年2月27日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
32+阅读 · 2020年4月15日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Deep Learning & Neural Network 免费学习资源【译】
乐享数据DataScientists
5+阅读 · 2017年8月20日
Arxiv
0+阅读 · 2021年6月10日
Arxiv
0+阅读 · 2021年6月5日
Arxiv
37+阅读 · 2021年2月10日
已删除
Arxiv
32+阅读 · 2020年3月23日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
VIP会员
相关资讯
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Deep Learning & Neural Network 免费学习资源【译】
乐享数据DataScientists
5+阅读 · 2017年8月20日
相关论文
Arxiv
0+阅读 · 2021年6月10日
Arxiv
0+阅读 · 2021年6月5日
Arxiv
37+阅读 · 2021年2月10日
已删除
Arxiv
32+阅读 · 2020年3月23日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Top
微信扫码咨询专知VIP会员