The flexibility of decision boundaries in neural networks that are unguided by training data is a well-known problem typically resolved with generalization methods. A surprising result from recent knowledge distillation (KD) literature is that random, untrained, and equally structured teacher networks can also vastly improve generalization performance. It raises the possibility of existence of undiscovered assumptions useful for generalization on an uncertain region. In this paper, we shed light on the assumptions by analyzing decision boundaries and confidence distributions of both simple and KD-based generalization methods. Assuming that a decision boundary exists to represent the most general tendency of distinction on an input sample space (i.e., the simplest hypothesis), we show the various limitations of methods when using the hypothesis. To resolve these limitations, we propose matured dumb teacher based KD, conservatively transferring the hypothesis for generalization of the student without massive destruction of trained information. In practical experiments on feed-forward and convolution neural networks for image classification tasks on MNIST, CIFAR-10, and CIFAR-100 datasets, the proposed method shows stable improvement to the best test performance in the grid search of hyperparameters. The analysis and results imply that the proposed method can provide finer generalization than existing methods.


翻译:在没有培训数据指导的神经网络中,决策界限的灵活性是一个众所周知的问题,通常通过一般化方法解决,最近的知识蒸馏(KD)文献令人惊讶地指出,随机的、未经培训的和结构相同的教师网络也可以极大地改善一般化绩效,这增加了存在有助于在一个不确定区域普遍化的未发现的假设的可能性;在本文件中,我们通过分析简单和基于KD的通用方法的决策界限和信任分布来说明这些假设;假设存在一个决定边界,以代表输入样本空间上最普遍的区别趋势(即最简单的假设),我们展示了使用假设时方法的各种局限性;为了解决这些局限性,我们提议以KD为基础的成熟的哑教师,保守地将学生普遍化的假设转换为不大规模破坏经过培训的信息;在实际试验用于MNIST、CIFAR-10和CIFAR-100集成的图像分类任务的进料和进化神经网络时,拟议的方法显示,在使用假设时,最佳测试性能比现有的超光度方法进行精确的分析。

0
下载
关闭预览

相关内容

【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
Federated Learning: 架构
AINLP
4+阅读 · 2020年9月20日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
64+阅读 · 2021年6月18日
Arxiv
13+阅读 · 2021年3月29日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
6+阅读 · 2018年12月10日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关资讯
Federated Learning: 架构
AINLP
4+阅读 · 2020年9月20日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
64+阅读 · 2021年6月18日
Arxiv
13+阅读 · 2021年3月29日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
6+阅读 · 2018年12月10日
A Multi-Objective Deep Reinforcement Learning Framework
Top
微信扫码咨询专知VIP会员