We study the multiple manifold problem, a binary classification task modeled on applications in machine vision, in which a deep fully-connected neural network is trained to separate two low-dimensional submanifolds of the unit sphere. We provide an analysis of the one-dimensional case, proving for a simple manifold configuration that when the network depth $L$ is large relative to certain geometric and statistical properties of the data, the network width $n$ grows as a sufficiently large polynomial in $L$, and the number of i.i.d. samples from the manifolds is polynomial in $L$, randomly-initialized gradient descent rapidly learns to classify the two manifolds perfectly with high probability. Our analysis demonstrates concrete benefits of depth and width in the context of a practically-motivated model problem: the depth acts as a fitting resource, with larger depths corresponding to smoother networks that can more readily separate the class manifolds, and the width acts as a statistical resource, enabling concentration of the randomly-initialized network and its gradients. The argument centers around the neural tangent kernel and its role in the nonasymptotic analysis of training overparameterized neural networks; to this literature, we contribute essentially optimal rates of concentration for the neural tangent kernel of deep fully-connected networks, requiring width $n \gtrsim L\,\mathrm{poly}(d_0)$ to achieve uniform concentration of the initial kernel over a $d_0$-dimensional submanifold of the unit sphere $\mathbb{S}^{n_0-1}$, and a nonasymptotic framework for establishing generalization of networks trained in the NTK regime with structured data. The proof makes heavy use of martingale concentration to optimally treat statistical dependencies across layers of the initial random network. This approach should be of use in establishing similar results for other network architectures.


翻译:我们研究多种多重问题,一个以机器视野应用程序为模型的二进制分类任务,其中,一个完全连接的深神经网络经过训练,可以分离单元球体的两个低维子元体。我们提供对一维案例的分析,证明一个简单的多元配置,当网络深度$与数据的某些几何和统计属性相比很大时,网络宽度将增长成一个足够大的多元值美元,以及i.d的样本数量(从机器视野中采集的样本数量)是美元多元数,随机初始化的梯度下降网络迅速学习对两个元体进行完全的分类。我们的分析表明,在一个实际动机模型问题的背景下,深度是合适的资源,其深度与更便于分离的平滑网络相对应,其宽度应作为统计资源,使以随机方式初始化的美元网络及其梯度集中度以美元为单位,随机化的美元单位的基底基底基底基底基底基底基底基底基底基底基底基底基底基底基底基质 数据网络的理论结果中心,在不完全的内基内基级的内基内基级的内基级数据化分析中,为内基级的内基级的内基级的内基底基质数据,建立的内基级的内基底基底的内基底的内基级的内根基底基底的内根根根基底的内根基底的内根根根根根根基底的内,用于,用于的内根根根根根根根根根根根根根根根根基的内根根基的内根基数据。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
159+阅读 · 2020年1月16日
深度学习界圣经“花书”《Deep Learning》中文版来了
专知会员服务
233+阅读 · 2019年10月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
4+阅读 · 2018年7月31日
Arxiv
0+阅读 · 2021年6月27日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
49+阅读 · 2021年5月9日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
14+阅读 · 2019年9月11日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
5+阅读 · 2018年5月31日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
4+阅读 · 2018年7月31日
相关论文
Arxiv
0+阅读 · 2021年6月27日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
49+阅读 · 2021年5月9日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
14+阅读 · 2019年9月11日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
5+阅读 · 2018年5月31日
Top
微信扫码咨询专知VIP会员