Over-parameterized deep networks trained using gradient-based optimizers are a popular choice for solving classification and ranking problems. Without appropriately tuned $\ell_2$ regularization or weight decay, such networks have the tendency to make output scores (logits) and network weights large, causing training loss to become too small and the network to lose its adaptivity (ability to move around) in the parameter space. Although regularization is typically understood from an overfitting perspective, we highlight its role in making the network more adaptive and enabling it to escape more easily from weights that generalize poorly. To provide such a capability, we propose a method called Logit Attenuating Weight Normalization (LAWN), that can be stacked onto any gradient-based optimizer. LAWN controls the logits by constraining the weight norms of layers in the final homogeneous sub-network. Empirically, we show that the resulting LAWN variant of the optimizer makes a deep network more adaptive to finding minimas with superior generalization performance on large-scale image classification and recommender systems. While LAWN is particularly impressive in improving Adam, it greatly improves all optimizers when used with large batch sizes


翻译:使用基于梯度的优化器所培训的超度深度网络是解决分类和排名问题的流行选择。不适当调整 $\ ell_ 2$ 正规化或重量衰减,这类网络倾向于使输出分数( logits) 和网络重量大得多,导致培训损失过小,网络在参数空间中失去适配性( 可移动性) 。虽然正规化通常从过分适当的角度理解,但我们强调其作用,使网络更适应性更强,使其更容易从普遍化不足的重量中逃脱。为了提供这种能力,我们建议了一种名为Logit Attatening Weight 正常化(LAWN) 的方法,这种方法可以堆积到任何基于梯度的优化器上。 法律网通过限制最终同质子网络各层的重量规范来控制对日志的对日志进行控制。 我们很生动地表明,由此形成的优化的LAPN变式使深网络更适应性,以找到在大型图像分类和建议系统中具有超超常化性性功能的微型。在改进亚当方面特别令人印象深刻。当改进亚当时,它能大大改进了所有与大批量使用时,它大大改进了所有优化。

0
下载
关闭预览

相关内容

专知会员服务
45+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
【总结】强化学习需要批归一化(Batch Norm)吗?
深度强化学习实验室
27+阅读 · 2020年10月8日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
激活函数初学者指南
论智
6+阅读 · 2018年5月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年10月10日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关VIP内容
专知会员服务
45+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
【总结】强化学习需要批归一化(Batch Norm)吗?
深度强化学习实验室
27+阅读 · 2020年10月8日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
激活函数初学者指南
论智
6+阅读 · 2018年5月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员