We investigate gradient descent training of wide neural networks and the corresponding implicit bias in function space. For univariate regression, we show that the solution of training a width-$n$ shallow ReLU network is within $n^{- 1/2}$ of the function which fits the training data and whose difference from the initial function has the smallest 2-norm of the second derivative weighted by a curvature penalty that depends on the probability distribution that is used to initialize the network parameters. We compute the curvature penalty function explicitly for various common initialization procedures. For instance, asymmetric initialization with a uniform distribution yields a constant curvature penalty, and thence the solution function is the natural cubic spline interpolation of the training data. We obtain a similar result for different activation functions. For multivariate regression we show an analogous result, whereby the second derivative is replaced by the Radon transform of a fractional Laplacian. For initialization schemes that yield a constant penalty function, the solutions are polyharmonic splines. Moreover, we show that the training trajectories are captured by trajectories of smoothing splines with decreasing regularization strength.


翻译:我们调查了宽度神经网络的梯度下降培训和功能空间中相应的隐含偏差。 对于单向回归,我们显示培训宽度- 美元浅浅ReLU网络的解决方案是在符合培训数据的函数中 $n ⁇ - 1/ }美元范围内,而该函数与初始函数的差值在第二个衍生函数中最小的2- 诺尔以曲线值加权,这取决于用于初始化网络参数的概率分布。我们计算了各种通用初始化程序的曲度惩罚函数。例如,使用统一分布的不对称初始化产生一个不变的曲度罚款,而在此情况下,解决方案函数是培训数据的自然立方螺纹内插。我们为不同的激活函数获得了类似的结果。对于多变量回归,我们展示了一个类似的结果,即第二个衍生值由拉登转换一个小色素的分数曲线值值值值来取代。对于初始化计划来说,产生恒定惩罚功能的解决方案是多相调质定的。此外,我们显示,培训轨迹通过平滑式螺纹的轨来捕捉取。

0
下载
关闭预览

相关内容

二阶导数,是原函数导数的导数,将原函数进行二次求导。一般的,函数y=f(x)的导数y'=f'(x)仍然是x的函数,则y'=f'(x)的导数叫做函数y=f(x)的二阶导数。
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
9+阅读 · 2020年10月29日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员