https://arxiv.org/abs/2002.12915
Dropout是一种广泛使用的正则化技术,通常需要为许多体系结构获得最先进的技术。这项工作表明,dropout引入了两种截然不同但相互纠缠的正则化效应:由于dropout修改了预期的训练目标而产生的显式效应(在之前的工作中也研究过),以及可能令人惊讶的是,dropout训练更新中的随机性带来的另一种隐式效应。这种隐式正则化效应类似于小批量随机梯度下降中的随机度效应。我们通过控制实验把这两种效应分开。然后,我们推导出分析的简化,用模型的导数和损失来描述每个影响,对于深度神经网络。我们证明了这些简化的、解析的正则化器准确地捕获了辍学的重要方面,表明它们在实践中忠实地替代了dropout。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“IED” 就可以获取《Dropout的隐性和显性正则化效应》专知下载链接