We examine one-hidden-layer neural networks with random weights. It is well-known that in the limit of infinitely many neurons they simplify to Gaussian processes. For networks with a polynomial activation, we demonstrate that the rate of this convergence in 2-Wasserstein metric is $O(n^{-\frac{1}{2}})$, where $n$ is the number of hidden neurons. We suspect this rate is asymptotically sharp. We improve the known convergence rate for other activations, to power-law in $n$ for ReLU and inverse-square-root up to logarithmic factors for erf. We explore the interplay between spherical harmonics, Stein kernels and optimal transport in the non-isotropic setting.
翻译:我们用随机重量检查一个隐藏层神经网络。 众所周知, 在无限多神经元的限度内, 它们会简化到高斯进程。 对于具有多元激活作用的网络, 我们证明, 2- Wasserstein 公制的这种趋同速度是 $O (n)-\\\ frac{1 ⁇ 2 ⁇ ) $, 其中一美元是隐藏的神经元的数量。 我们怀疑这个速度在瞬间是惊人的。 我们提高了其他激活的已知趋同率, 将ReLU 的功率提高到 $( $) 和 反平方根到 erf 的对数系数。 我们探索了球调、 Stech 内核以及非粒子环境中的最佳运输方式之间的相互作用 。