深度学习理论进展如何?看这6节上海交大暑期学校硬课: 均值场理论、神经切核、函数空间理论、隐式正则化、频率原理(附PPT下载)

2020 年 8 月 2 日 专知

这6节深度学习理论硬核课!不容错过




这个在线暑期学校旨在介绍近几年深度学习理论的进展,包括均值场理论、神经切核、函数空间理论、隐式正则化、频率原理等。不同观点之间的相互作用可能会对深度学习理论的发展有所启示。


https://ins.sjtu.edu.cn/schools/2020/07/16/online-summer-school-of-deep-learning-theory/1775


1.  均值场神经网络


神经网络的精确性和可训练性:近似和优化的均值场视角

最近,对于深度神经网络理论研究有了一定突破。其中一支就是平均场理论(mean-field theory)。通过理论角度研究网络的初始化,研究者发现了两个影响网络训练的因素,一个是前向传播时网络对于不同样本的表达性(expressivity)以及反向传播时梯度消失爆炸问题,我们用可训练性(trainability)一词来描述关于梯度是否出现消失爆炸问题。

表达性以及可训练性这两个因素确定了深度网络能够成功训练的超参数范围。关于这一论断,研究者已经在全连接网络(fully connected network),卷积神经网络(CNN),递归神经网络(RNN),以及残差神经网络(Residual network)等等上面得到了实验验证。

在平均场理论基础上,研究者通过研究Input-output Jacobian矩阵的谱分布,发现网络初始化的另一个性质,dynamical isometry,即Jaconbian矩阵的奇异值分布集中在1附近时,网络的训练速度会特别快。利用这个结论,研究者成功训练了在没有batch normalization以及resnet结构帮助下的单纯一万层的卷积神经网络。



2.  神经切内核-DNNs的收敛和推广


现代深度学习使得大型神经网络得到普遍使用,但研究这类网络的理论工具仍然缺乏。神经正切核(NTK)描述了输出神经元在训练期间是如何进化的。在无限宽极限下(当隐藏神经元数增长到无穷大时),NTK收敛到一个确定的、固定的极限,导致对无限宽DNN的动力学的简单描述。NTK受网络架构的影响,因此有助于理解架构的选择如何影响DNNs的收敛和泛化。


随着网络深度的增长,出现了两种机制。冻结状态下,NTK几乎是恒定的,收敛速度缓慢;混沌状态下,NTK接近 Chaotic regime,这会加快训练速度,但可能会损害泛化。增加初始化偏差的方差将网络推向冻结状态,而层归一化和批归一化等归一化方法将网络推向混沌状态。


在GANs中,冻结状态导致模态崩溃,其中产生器收敛于一个常数,并导致棋盘图案,即图像中的重复图案。当产生器处于混沌状态时,这两个问题都得到了很好的解决,这说明了批量归一化在GANs训练中的重要性。

3.  神经网络模型的函数空间理论和泛化误差估计


  • 我们建立了神经网络模型的函数空间理论,定义了两层神经网络的Barron空间和残差网络的流诱导函数空间


  • 直接定理和逆定理表明,函数空间包含所有的函数,可以被表现良好的神经网络(没有维数的诅咒)近似,规范控制常量因素。范数还可以控制估计误差。


  • 通过RKHS、Barron空间和合成空间的比较,可以看出残差网络优于两层网络,两层网络优于核方法。


4  对深度学习中隐式正则化的理解


对于神经网络模型,GD或SGD总能很好地找到可泛化的解决方案。与隐式正则化相比,显式正则化,例如权值衰减、退出等,只能略微提高泛化性能。明确的正则化在某些场景中可能是非常重要的,例如高噪声数据、无监督学习(GAN)等。


频率原理:线性模型和一般理论




6 神经正切核



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DLT” 可以获取《深度学习理论6节上海交大暑期学校硬课: 均值场理论、神经切核、函数空间理论、隐式正则化、频率原理(附PPT下载)》专知下载链接索引

专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料
登录查看更多
0

相关内容

非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
102+阅读 · 2020年6月28日
专知会员服务
107+阅读 · 2020年5月21日
【干货51页PPT】深度学习理论理解探索
专知会员服务
61+阅读 · 2019年12月24日
【上海交大】半监督学习理论及其研究进展概述
专知会员服务
69+阅读 · 2019年10月18日
脉冲神经网络与小样本学习【附PPT】
人工智能前沿讲习班
46+阅读 · 2019年2月1日
深度剖析卷积神经网络
云栖社区
7+阅读 · 2018年5月27日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
【干货】卷积神经网络中的四种基本组件
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
12+阅读 · 2018年1月12日
Arxiv
3+阅读 · 2017年7月6日
VIP会员
相关资讯
脉冲神经网络与小样本学习【附PPT】
人工智能前沿讲习班
46+阅读 · 2019年2月1日
深度剖析卷积神经网络
云栖社区
7+阅读 · 2018年5月27日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
【干货】卷积神经网络中的四种基本组件
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
Top
微信扫码咨询专知VIP会员