This book develops an effective theory approach to understanding deep neural networks of practical relevance. Beginning from a first-principles component-level picture of networks, we explain how to determine an accurate description of the output of trained networks by solving layer-to-layer iteration equations and nonlinear learning dynamics. A main result is that the predictions of networks are described by nearly-Gaussian distributions, with the depth-to-width aspect ratio of the network controlling the deviations from the infinite-width Gaussian description. We explain how these effectively-deep networks learn nontrivial representations from training and more broadly analyze the mechanism of representation learning for nonlinear models. From a nearly-kernel-methods perspective, we find that the dependence of such models' predictions on the underlying learning algorithm can be expressed in a simple and universal way. To obtain these results, we develop the notion of representation group flow (RG flow) to characterize the propagation of signals through the network. By tuning networks to criticality, we give a practical solution to the exploding and vanishing gradient problem. We further explain how RG flow leads to near-universal behavior and lets us categorize networks built from different activation functions into universality classes. Altogether, we show that the depth-to-width ratio governs the effective model complexity of the ensemble of trained networks. By using information-theoretic techniques, we estimate the optimal aspect ratio at which we expect the network to be practically most useful and show how residual connections can be used to push this scale to arbitrary depths. With these tools, we can learn in detail about the inductive bias of architectures, hyperparameters, and optimizers.


翻译:这本书开发了一种有效的理论方法来理解具有实际相关性的深神经网络。 我们从首先原则的构成层面的网络图象开始, 我们解释如何通过解决层到层的迭代方程式和非线性学习动态来准确描述经过训练的网络输出。 我们发现, 网络预测的依靠可以简单和普遍的方式表达。 为了获得这些结果, 我们开发了代表群流概念( RG 流) 来描述通过网络传播信号的有用性。 通过对网络进行精度调整, 我们从高斯描述的高度推向高度, 我们为非线性模型的分流分流提供了一种实际的解决方案。 我们从接近内核层的迭代方程式和非线性模型的深度学习机制。 我们进一步解释了这些模型对基本学习算法的预测对于基础学习算法的依赖性。 为了获得这些结果, 我们开发了代表群流( RG 流) 概念来描述通过网络传播信号的有用性。 通过将网络推向临界性, 我们为正在变化和消化的梯度问题提供了一种实际的解决方案。 我们进一步解释了在网络的深度中, 我们从基础化的深度中, 我们用了基础化的流到我们使用了基础化的流到我们, 的流 的流 的流到我们从基础化的流到在深度的流到流 的流 向上, 我们的流 向上, 我们的流 的流 向的流 向中, 我们的流到我们的流 的流 的流 向的流 正在显示的流 正在显示的流 的流到我们的流 的流 的流到我们的流 的流 我们的流 的流 正在的流到我们用到我们用到流 的流 的流 的流 的流 的流 我们的流 的流 向的流 的流 向中, 我们的流 向中, 我们的流 我们的流 的流 向的流 的流 向的流 的流 的流 的流 的流 的流 的流 的流 的流 向的流 的流 的流 向的流 的流到我们的流 我们的流 向的流到我们的流 向的流 向, 我们的

64
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
专知会员服务
42+阅读 · 2020年12月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
笔记 | 吴恩达Coursera Deep Learning学习笔记
AI100
4+阅读 · 2017年9月27日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月18日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
49+阅读 · 2021年5月9日
Arxiv
11+阅读 · 2021年3月25日
Arxiv
18+阅读 · 2021年3月16日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
A Survey of Deep Learning for Scientific Discovery
Arxiv
29+阅读 · 2020年3月26日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
5+阅读 · 2018年5月31日
VIP会员
相关VIP内容
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
笔记 | 吴恩达Coursera Deep Learning学习笔记
AI100
4+阅读 · 2017年9月27日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年8月18日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
49+阅读 · 2021年5月9日
Arxiv
11+阅读 · 2021年3月25日
Arxiv
18+阅读 · 2021年3月16日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
A Survey of Deep Learning for Scientific Discovery
Arxiv
29+阅读 · 2020年3月26日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
5+阅读 · 2018年5月31日
Top
微信扫码咨询专知VIP会员