Overparametrized neural networks trained by gradient descent (GD) can provably overfit any training data. However, the generalization guarantee may not hold for noisy data. From a nonparametric perspective, this paper studies how well overparametrized neural networks can recover the true target function in the presence of random noises. We establish a lower bound on the $L_2$ estimation error with respect to the GD iterations, which is away from zero without a delicate scheme of early stopping. In turn, through a comprehensive analysis of $\ell_2$-regularized GD trajectories, we prove that for overparametrized one-hidden-layer ReLU neural network with the $\ell_2$ regularization: (1) the output is close to that of the kernel ridge regression with the corresponding neural tangent kernel; (2) minimax {optimal} rate of $L_2$ estimation error can be achieved. Numerical experiments confirm our theory and further demonstrate that the $\ell_2$ regularization approach improves the training robustness and works for a wider range of neural networks.


翻译:由梯度下移(GD)培训的超称神经网络可以明显地超过任何培训数据。 但是, 通用保证可能无法维持噪音数据。 从非参数的角度来看, 本文研究在随机噪音出现时超称神经网络能够恢复真实目标功能的情况。 我们根据GD循环的0.2美元估计误差确定一个较低的约束值, 该误差离零不远,而没有早期停止的微妙计划。 反过来, 通过对 $\ ell_ 2美元正规化的GD轨迹进行全面分析, 我们证明, 以 $\ ell_ 2美元正规化的GD轨迹, 用 $\ ell_ 2美元正规化的超正匹配层 ReLU 神经网络 证明:(1) 输出值接近内核脊梯回归值, 与相应的神经红外核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内沉; (2) =2美元估计误差的微摩[optax] =2美元的估计速率可以达到0.2美元。 。 内核实验可以证实我们的理论, 并进一步证明我们理论, 和进一步证明以$\2美元正规化方法改进网络内核内核内核网络的精和工程工程。

0
下载
关闭预览

相关内容

神经网络(Neural Networks)是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛,以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交,有助于全面的神经网络研究,从行为和大脑建模,学习算法,通过数学和计算分析,系统的工程和技术应用,大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流,并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此,神经网络编委会代表的专家领域包括心理学,神经生物学,计算机科学,工程,数学,物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学,神经科学,学习系统,数学和计算分析、工程和应用。 官网地址:http://dblp.uni-trier.de/db/journals/nn/
专知会员服务
92+阅读 · 2021年6月3日
ICML 2021论文收录
专知会员服务
123+阅读 · 2021年5月8日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
50+阅读 · 2021年1月20日
专知会员服务
51+阅读 · 2020年12月14日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年11月18日
Arxiv
0+阅读 · 2021年11月16日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
3+阅读 · 2018年6月18日
Arxiv
5+阅读 · 2018年5月31日
VIP会员
相关资讯
相关论文
Arxiv
0+阅读 · 2021年11月18日
Arxiv
0+阅读 · 2021年11月16日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
3+阅读 · 2018年6月18日
Arxiv
5+阅读 · 2018年5月31日
Top
微信扫码咨询专知VIP会员