【斯坦福大学】Dropout的隐性和显性正则化效应,Regularization Effects

2020 年 3 月 4 日 专知

https://arxiv.org/abs/2002.12915


Dropout是一种广泛使用的正则化技术,通常需要为许多体系结构获得最先进的技术。这项工作表明,dropout引入了两种截然不同但相互纠缠的正则化效应:由于dropout修改了预期的训练目标而产生的显式效应(在之前的工作中也研究过),以及可能令人惊讶的是,dropout训练更新中的随机性带来的另一种隐式效应。这种隐式正则化效应类似于小批量随机梯度下降中的随机度效应。我们通过控制实验把这两种效应分开。然后,我们推导出分析的简化,用模型的导数和损失来描述每个影响,对于深度神经网络。我们证明了这些简化的、解析的正则化器准确地捕获了辍学的重要方面,表明它们在实践中忠实地替代了dropout。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“IED” 就可以获取Dropout的隐性和显性正则化效应专知下载链接


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
专知会员服务
42+阅读 · 2020年7月7日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
专知会员服务
107+阅读 · 2020年5月21日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
经典书《斯坦福大学-多智能体系统》532页pdf
深度学习有何局限?这篇论文探讨一二
专知
9+阅读 · 2019年1月26日
专知主题链路知识推荐#2——参数估计方法
Neural Module Networks for Reasoning over Text
Arxiv
9+阅读 · 2019年12月10日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
Single-frame Regularization for Temporally Stable CNNs
VIP会员
Top
微信扫码咨询专知VIP会员