This book develops an effective theory approach to understanding deep neural networks of practical relevance. Beginning from a first-principles component-level picture of networks, we explain how to determine an accurate description of the output of trained networks by solving layer-to-layer iteration equations and nonlinear learning dynamics. A main result is that the predictions of networks are described by nearly-Gaussian distributions, with the depth-to-width aspect ratio of the network controlling the deviations from the infinite-width Gaussian description. We explain how these effectively-deep networks learn nontrivial representations from training and more broadly analyze the mechanism of representation learning for nonlinear models. From a nearly-kernel-methods perspective, we find that the dependence of such models' predictions on the underlying learning algorithm can be expressed in a simple and universal way. To obtain these results, we develop the notion of representation group flow (RG flow) to characterize the propagation of signals through the network. By tuning networks to criticality, we give a practical solution to the exploding and vanishing gradient problem. We further explain how RG flow leads to near-universal behavior and lets us categorize networks built from different activation functions into universality classes. Altogether, we show that the depth-to-width ratio governs the effective model complexity of the ensemble of trained networks. By using information-theoretic techniques, we estimate the optimal aspect ratio at which we expect the network to be practically most useful and show how residual connections can be used to push this scale to arbitrary depths. With these tools, we can learn in detail about the inductive bias of architectures, hyperparameters, and optimizers.
翻译:这本书开发了一种有效的理论方法来理解具有实际相关性的深神经网络。 我们从首先原则的构成层面的网络图象开始, 我们解释如何通过解决层到层的迭代方程式和非线性学习动态来准确描述经过训练的网络输出。 我们发现, 网络预测的依靠可以简单和普遍的方式表达。 为了获得这些结果, 我们开发了代表群流概念( RG 流) 来描述通过网络传播信号的有用性。 通过对网络进行精度调整, 我们从高斯描述的高度推向高度, 我们为非线性模型的分流分流提供了一种实际的解决方案。 我们从接近内核层的迭代方程式和非线性模型的深度学习机制。 我们进一步解释了这些模型对基本学习算法的预测对于基础学习算法的依赖性。 为了获得这些结果, 我们开发了代表群流( RG 流) 概念来描述通过网络传播信号的有用性。 通过将网络推向临界性, 我们为正在变化和消化的梯度问题提供了一种实际的解决方案。 我们进一步解释了在网络的深度中, 我们从基础化的深度中, 我们用了基础化的流到我们使用了基础化的流到我们, 的流 的流 的流到我们从基础化的流到在深度的流到流 的流 向上, 我们的流 向上, 我们的流 的流 向的流 向中, 我们的流到我们的流 的流 的流 向的流 正在显示的流 正在显示的流 的流到我们的流 的流 的流到我们的流 的流 我们的流 的流 正在的流到我们用到我们用到流 的流 的流 的流 的流 的流 我们的流 的流 向的流 的流 向中, 我们的流 向中, 我们的流 我们的流 的流 向的流 的流 向的流 的流 的流 的流 的流 的流 的流 的流 的流 向的流 的流 的流 向的流 的流到我们的流 我们的流 向的流到我们的流 向的流 向, 我们的