Yang (2020a)最近指出,神经切线核(NTK)在初始化时具有无限宽的限制,适用于许多架构,包括现代的主要架构,如ResNet和Transformer。然而,他们的分析并不适用于训练。在这里,我们展示了同样的神经网络(在所谓的NTK参数化中)在训练过程中遵循函数空间中的核梯度下降动力学,其中核是无限宽NTK。这就完成了NTK行为体系结构通用性的证明。为了得到这个结果,我们运用张量程序技术:在一个张量程序中编写整个SGD动态,并通过主定理分析它。为了便于证明,我们开发了一个张量程序的图形符号。