虽然深度学习在许多应用中都取得了成功,但它在理论上还没有得到很好的理解。尽管存在过度参数化和缺乏显式正则化,但深度学习的理论表征应该回答有关其近似能力、优化动力学和强泛化性能的问题。为了实现这一目标,我们回顾了最近的成果。在近似理论中,浅层网络和深层网络都可以以指数代价逼近任意连续函数。但是,我们证明了对于某些类型的合成函数,卷积型深度网络(即使没有权值共享)可以避免维数诅咒。在描述最小化经验指数损失时,我们考虑权值方向的梯度流动,而不是权值本身,因为相关的分类函数对应于归一化网络。归一化权值的动力学结果等价于在单位范数约束下最小化损失的约束问题。特别地,典型梯度下降动力学与约束问题具有相同的临界点。因此,在梯度流中,在指数型损失函数下训练深度网络存在隐式正则化。因此,临界点对应于损失的最小常模infima。这个结果特别相关,因为它最近表明,对于过度参数化的模型,选择最小范数解决方案优化了交叉验证留下一的稳定性,从而优化了预期误差。因此,我们的结果表明梯度下降深度网络的期望误差最小。
https://www.pnas.org/content/117/48/30039
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“DNNT” 可以获取《【PNAS】深度神经网络中的理论议题,麻省理工Tomaso Poggio撰写》专知下载链接索引