Yang (2020a)最近指出,神经切线核(NTK)在初始化时具有无限宽的限制,适用于许多架构,包括现代的主要架构,如ResNet和Transformer。然而,他们的分析并不适用于训练。在这里,我们展示了同样的神经网络(在所谓的NTK参数化中)在训练过程中遵循函数空间中的核梯度下降动力学,其中核是无限宽NTK。这就完成了NTK行为体系结构通用性的证明。为了得到这个结果,我们运用张量程序技术:在一个张量程序中编写整个SGD动态,并通过主定理分析它。为了便于证明,我们开发了一个张量程序的图形符号。

成为VIP会员查看完整内容
11

相关内容

专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
38+阅读 · 2021年6月11日
专知会员服务
19+阅读 · 2021年5月30日
专知会员服务
34+阅读 · 2021年5月29日
专知会员服务
80+阅读 · 2021年5月10日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
【干货书】高级应用深度学习,294页pdf
专知会员服务
148+阅读 · 2020年6月20日
图神经网络架构,稳定性,可迁移性
专知
5+阅读 · 2020年8月8日
如何训练你的ResNet(三):正则化
论智
5+阅读 · 2018年11月13日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
Arxiv
0+阅读 · 2021年7月16日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
4+阅读 · 2020年1月17日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
LARNN: Linear Attention Recurrent Neural Network
Arxiv
5+阅读 · 2018年8月16日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
相关VIP内容
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
38+阅读 · 2021年6月11日
专知会员服务
19+阅读 · 2021年5月30日
专知会员服务
34+阅读 · 2021年5月29日
专知会员服务
80+阅读 · 2021年5月10日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
【干货书】高级应用深度学习,294页pdf
专知会员服务
148+阅读 · 2020年6月20日
相关论文
Arxiv
0+阅读 · 2021年7月16日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
4+阅读 · 2020年1月17日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
LARNN: Linear Attention Recurrent Neural Network
Arxiv
5+阅读 · 2018年8月16日
Arxiv
8+阅读 · 2018年1月25日
微信扫码咨询专知VIP会员