过度测量神经网络 Nesterov 加速方法的可探测汇合 (Provable Convergence of Nesterov Accelerated Method for Over-Parameterized Neural Networks)

Despite the empirical success of deep learning, it still lacks theoretical understandings to explain why randomly initialized neural network trained by first-order optimization methods is able to achieve zero training loss, even though its landscape is non-convex and non-smooth. Recently, there are some works to demystifies this phenomenon under over-parameterized regime. In this work, we make further progress on this area by considering a commonly used momentum optimization algorithm: Nesterov accelerated method (NAG). We analyze the convergence of NAG for two-layer fully connected neural network with ReLU activation. Specifically, we prove that the error of NAG converges to zero at a linear convergence rate $1-\Theta(1/\sqrt{\kappa})$, where $\kappa > 1$ is determined by the initialization and the architecture of neural network. Comparing to the rate $1-\Theta(1/\kappa)$ of gradient descent, NAG achieves an acceleration. Besides, it also validates NAG and Heavy-ball method can achieve a similar convergence rate.

翻译：尽管深层学习取得了成功,但它仍然缺乏理论上的谅解来解释为什么通过一阶优化方法培训的随机初始化神经网络能够实现零培训损失,尽管其风景不是康维克斯,也不是潮湿的。最近,在超分化制度下,有一些工作可以解开这种现象的神秘性。在这项工作中,我们通过考虑一种常用的势头优化算法(Nesterov 加速法)而在这一领域取得进一步进展。我们分析了与ReLU启动的两层完全连接的神经网络的NAG趋同情况。具体地说,我们证明,NAG的错误以1\Theta(1/Sqrthukappa)的线性趋同率(1\\\\ sqrthukappa)合为零,而美元 > 1美元是由神经网络的初始化和结构决定的。与1\Theta(1\\\\\\\\ kapappa)美元的梯度下降率相比,NAG也实现了加速。此外,我们证明NAG和重球方法也能够实现类似的趋同的趋同率。

相关内容

Neural Networks

关注 1649

神经网络（Neural Networks）是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛，以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交，有助于全面的神经网络研究，从行为和大脑建模，学习算法，通过数学和计算分析，系统的工程和技术应用，大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流，并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此，神经网络编委会代表的专家领域包括心理学，神经生物学，计算机科学，工程，数学，物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学，神经科学，学习系统，数学和计算分析、工程和应用。官网地址：http://dblp.uni-trier.de/db/journals/nn/

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【浪潮AI】自动超参数优化:算法和应用综述论文，56页pdf，Hyper-Parameter Optimization

专知会员服务

54+阅读 · 2020年3月16日

【综述】超参数优化:算法和应用综述，Hyper-Parameter Optimization: A Review of Algorithms and Applications

专知会员服务

57+阅读 · 2020年3月13日