This book develops an effective theory approach to understanding deep neural networks of practical relevance. Beginning from a first-principles component-level picture of networks, we explain how to determine an accurate description of the output of trained networks by solving layer-to-layer iteration equations and nonlinear learning dynamics. A main result is that the predictions of networks are described by nearly-Gaussian distributions, with the depth-to-width aspect ratio of the network controlling the deviations from the infinite-width Gaussian description. We explain how these effectively-deep networks learn nontrivial representations from training and more broadly analyze the mechanism of representation learning for nonlinear models. From a nearly-kernel-methods perspective, we find that the dependence of such models' predictions on the underlying learning algorithm can be expressed in a simple and universal way. To obtain these results, we develop the notion of representation group flow (RG flow) to characterize the propagation of signals through the network. By tuning networks to criticality, we give a practical solution to the exploding and vanishing gradient problem. We further explain how RG flow leads to near-universal behavior and lets us categorize networks built from different activation functions into universality classes. Altogether, we show that the depth-to-width ratio governs the effective model complexity of the ensemble of trained networks. By using information-theoretic techniques, we estimate the optimal aspect ratio at which we expect the network to be practically most useful and show how residual connections can be used to push this scale to arbitrary depths. With these tools, we can learn in detail about the inductive bias of architectures, hyperparameters, and optimizers.


翻译:这本书开发了一种有效的理论方法来理解具有实际相关性的深神经网络。 我们从首先原则的构成层面的网络图象开始, 我们解释如何通过解决层到层的迭代方程式和非线性学习动态来准确描述经过训练的网络输出。 我们发现, 网络预测的依靠可以简单和普遍的方式表达。 为了获得这些结果, 我们开发了代表群流概念( RG 流) 来描述通过网络传播信号的有用性。 通过对网络进行精度调整, 我们从高斯描述的高度推向高度, 我们为非线性模型的分流分流提供了一种实际的解决方案。 我们从接近内核层的迭代方程式和非线性模型的深度学习机制。 我们进一步解释了这些模型对基本学习算法的预测对于基础学习算法的依赖性。 为了获得这些结果, 我们开发了代表群流( RG 流) 概念来描述通过网络传播信号的有用性。 通过将网络推向临界性, 我们为正在变化和消化的梯度问题提供了一种实际的解决方案。 我们进一步解释了在网络的深度中, 我们从基础化的深度中, 我们用了基础化的流到我们使用了基础化的流到我们, 的流 的流 的流到我们从基础化的流到在深度的流到流 的流 向上, 我们的流 向上, 我们的流 的流 向的流 向中, 我们的流到我们的流 的流 的流 向的流 正在显示的流 正在显示的流 的流到我们的流 的流 的流到我们的流 的流 我们的流 的流 正在的流到我们用到我们用到流 的流 的流 的流 的流 的流 我们的流 的流 向的流 的流 向中, 我们的流 向中, 我们的流 我们的流 的流 向的流 的流 向的流 的流 的流 的流 的流 的流 的流 的流 的流 向的流 的流 的流 向的流 的流到我们的流 我们的流 向的流到我们的流 向的流 向, 我们的

1
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
【图与几何深度学习】Graph and geometric deep learning,49页ppt
【CMU】最新深度学习课程, Introduction to Deep Learning
专知会员服务
36+阅读 · 2020年9月12日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Deep Learning(深度学习)各种资料网址
数据挖掘入门与实战
11+阅读 · 2017年10月31日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
深度学习(Deep Learning)发展史
Linux中国
7+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
13+阅读 · 2021年10月9日
Arxiv
49+阅读 · 2021年5月9日
Arxiv
57+阅读 · 2021年5月3日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
7+阅读 · 2020年12月10日
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
VIP会员
相关资讯
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Deep Learning(深度学习)各种资料网址
数据挖掘入门与实战
11+阅读 · 2017年10月31日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
深度学习(Deep Learning)发展史
Linux中国
7+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
13+阅读 · 2021年10月9日
Arxiv
49+阅读 · 2021年5月9日
Arxiv
57+阅读 · 2021年5月3日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
7+阅读 · 2020年12月10日
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Top
微信扫码咨询专知VIP会员