Knowledge Distillation in Wide Neural Networks: Risk Bound, Data Efficiency and Imperfect Teacher

知识提炼是一种在教师网络的软输出指导下训练学生网络的策略。它已成为模型压缩和知识转移的成功方法。然而,目前的知识提炼缺乏令人信服的理论知识。另一方面,最近在神经正切核上的发现使我们能够使用网络随机特征的线性模型来近似宽泛的神经网络。在本文中,我们从理论上分析了广义神经网络的知识提炼问题。首先给出了线性化网络模型的转移风险界限。然后我们提出了一个任务训练难度的度量,称为数据效率。基于这一衡量标准,我们表明,对于一个完美的教师,高比例的教师软标签可能是有益的。最后,对于教师不完善的情况,我们发现硬标签可以纠正教师的错误预测,这就解释了硬标签和软标签混合使用的实践。

https://www.zhuanzhi.ai/paper/8fb343feb238db246bcdb59a367b6cbd

成为VIP会员查看完整内容
17

相关内容

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。 最近十多年来,人工神经网络的研究工作不断深入,已经取得了很大的进展,其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。
专知会员服务
8+阅读 · 2020年11月10日
【普林斯顿】机器学习数学视角,63页ppt
专知会员服务
87+阅读 · 2020年11月6日
专知会员服务
28+阅读 · 2020年10月24日
专知会员服务
16+阅读 · 2020年10月18日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
25+阅读 · 2020年10月13日
【NeurIPS2020】基于能量的分布外检测
专知会员服务
13+阅读 · 2020年10月10日
专知会员服务
220+阅读 · 2020年8月1日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
模型压缩 | 知识蒸馏经典解读
AINLP
10+阅读 · 2020年5月31日
【模型蒸馏】从入门到放弃:深度学习中的模型蒸馏技术
深度学习自然语言处理
13+阅读 · 2020年4月11日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
【NeurIPS 2019】7篇自动化神经网络搜索(NAS)论文简读
中国人工智能学会
15+阅读 · 2019年9月13日
大讲堂 | 基于医疗知识的疾病诊断预测
AI科技评论
10+阅读 · 2019年1月22日
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
Arxiv
0+阅读 · 2020年12月15日
Privacy-preserving Decentralized Federated Learning
Arxiv
1+阅读 · 2020年12月13日
A Modern Introduction to Online Learning
Arxiv
20+阅读 · 2019年12月31日
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Arxiv
5+阅读 · 2019年6月5日
Arxiv
8+阅读 · 2019年3月21日
VIP会员
相关VIP内容
专知会员服务
8+阅读 · 2020年11月10日
【普林斯顿】机器学习数学视角,63页ppt
专知会员服务
87+阅读 · 2020年11月6日
专知会员服务
28+阅读 · 2020年10月24日
专知会员服务
16+阅读 · 2020年10月18日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
25+阅读 · 2020年10月13日
【NeurIPS2020】基于能量的分布外检测
专知会员服务
13+阅读 · 2020年10月10日
专知会员服务
220+阅读 · 2020年8月1日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
相关资讯
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
模型压缩 | 知识蒸馏经典解读
AINLP
10+阅读 · 2020年5月31日
【模型蒸馏】从入门到放弃:深度学习中的模型蒸馏技术
深度学习自然语言处理
13+阅读 · 2020年4月11日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
【NeurIPS 2019】7篇自动化神经网络搜索(NAS)论文简读
中国人工智能学会
15+阅读 · 2019年9月13日
大讲堂 | 基于医疗知识的疾病诊断预测
AI科技评论
10+阅读 · 2019年1月22日
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
相关论文
微信扫码咨询专知VIP会员