Deep Neural Networks, often owing to the overparameterization, are shown to be capable of exactly memorizing even randomly labelled data. Empirical studies have also shown that none of the standard regularization techniques mitigate such overfitting. We investigate whether the choice of the loss function can affect this memorization. We empirically show, with benchmark data sets MNIST and CIFAR-10, that a symmetric loss function, as opposed to either cross-entropy or squared error loss, results in significant improvement in the ability of the network to resist such overfitting. We then provide a formal definition for robustness to memorization and provide a theoretical explanation as to why the symmetric losses provide this robustness. Our results clearly bring out the role loss functions alone can play in this phenomenon of memorization.


翻译:深海神经网络往往由于过分的参数化,被证明能够精确地存储甚至随机标注的数据。 经验性研究还表明,标准正规化技术中没有任何一种技术能够缓解这种过度配置。 我们调查损失功能的选择是否会影响这种记忆化。 我们用基准数据集MNIST和CIFAR-10, 实验性地显示,对称损失功能,而不是交叉湿度或平方误差损失,导致网络抵抗这种过度配置的能力得到显著提高。 我们随后为记忆化的稳健性提供了正式定义,并提供了理论解释,说明为什么对称损失提供了这种稳健性。 我们的结果清楚地表明,在这种记忆化现象中,单靠对称损失功能就能起到作用。

0
下载
关闭预览

相关内容

损失函数,在AI中亦称呼距离函数,度量函数。此处的距离代表的是抽象性的,代表真实数据与预测数据之间的误差。损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
168+阅读 · 2020年5月6日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
30+阅读 · 2020年4月15日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
笔记 | 吴恩达Coursera Deep Learning学习笔记
AI100
4+阅读 · 2017年9月27日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Introduction to Neural Network Verification
Arxiv
0+阅读 · 2021年9月21日
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
9+阅读 · 2020年2月15日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
笔记 | 吴恩达Coursera Deep Learning学习笔记
AI100
4+阅读 · 2017年9月27日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员