In a neural network (NN), *weight matrices* linearly transform inputs into *preactivations* that are then transformed nonlinearly into *activations*. A typical NN interleaves multitudes of such linear and nonlinear transforms to express complex functions. Thus, the (pre-)activations depend on the weights in an intricate manner. We show that, surprisingly, (pre-)activations of a randomly initialized NN become *independent* from the weights as the NN's widths tend to infinity, in the sense of asymptotic freeness in random matrix theory. We call this the Free Independence Principle (FIP), which has these consequences: 1) It rigorously justifies the calculation of asymptotic Jacobian singular value distribution of an NN in Pennington et al. [36,37], essential for training ultra-deep NNs [48]. 2) It gives a new justification of gradient independence assumption used for calculating the Neural Tangent Kernel of a neural network. FIP and these results hold for any neural architecture. We show FIP by proving a Master Theorem for any Tensor Program, as introduced in Yang [50,51], generalizing the Master Theorems proved in those works. As warmup demonstrations of this new Master Theorem, we give new proofs of the semicircle and Marchenko-Pastur laws, which benchmarks our framework against these fundamental mathematical results.


翻译:在神经网络(NN)中,*重量矩阵* 线性矩阵将输入转换成* 状态,然后从非线性自由理论的意义上,将输入转换成* 状态* 。典型的 NN 间间隔将许多线性和非线性变异变异为表示复杂的功能。因此,(预)激活取决于权重的复杂方式。我们表明,令人惊讶的是,随机初始化的NNN的(预)激活成为* 依赖* 重力,因为NN的宽度趋向于无限,从随机矩阵理论的无线自由感来看。我们称之为自由独立原则(FIP),其后果如下:1) 它严格地说明计算NN在Pennington 和 al. [36,37] 的无线性Jacobian单值分布取决于权重的复杂方式。我们显示,对培训超深NNN(P) [48] 至关重要的(预) 。2 它提供了一个新的梯度独立假设的理由,用于计算神经网络的内核内核内衬。FIP和这些结果在任何基本矩阵结构结构中可以证明。

0
下载
关闭预览

相关内容

专知会员服务
42+阅读 · 2020年12月18日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年1月16日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员