The geometric structure of an optimization landscape is argued to be fundamentally important to support the success of deep neural network learning. A direct computation of the landscape beyond two layers is hard. Therefore, to capture the global view of the landscape, an interpretable model of the network-parameter (or weight) space must be established. However, the model is lacking so far. Furthermore, it remains unknown what the landscape looks like for deep networks of binary synapses, which plays a key role in robust and energy efficient neuromorphic computation. Here, we propose a statistical mechanics framework by directly building a least structured model of the high-dimensional weight space, considering realistic structured data, stochastic gradient descent training, and the computational depth of neural networks. We also consider whether the number of network parameters outnumbers the number of supplied training data, namely, over- or under-parametrization. Our least structured model reveals that the weight spaces of the under-parametrization and over-parameterization cases belong to the same class, in the sense that these weight spaces are well-connected without any hierarchical clustering structure. In contrast, the shallow-network has a broken weight space, characterized by a discontinuous phase transition, thereby clarifying the benefit of depth in deep learning from the angle of high dimensional geometry. Our effective model also reveals that inside a deep network, there exists a liquid-like central part of the architecture in the sense that the weights in this part behave as randomly as possible, providing algorithmic implications. Our data-driven model thus provides a statistical mechanics insight about why deep learning is unreasonably effective in terms of the high-dimensional weight space, and how deep networks are different from shallow ones.


翻译:优化地貌的几何结构被认为对于支持深层神经网络学习的成功至关重要。 直接计算两层以上的地貌很难。 因此, 要捕捉全球地貌, 必须建立网络参数( 或重量) 空间的可解释模型。 但是, 模型目前还缺乏。 此外, 仍然不清楚二进制突触深度网络的地貌结构, 在稳健和节能神经形态计算中起着关键作用。 在此, 我们建议建立一个统计力框架, 直接建立一个结构最差的高度重量空间模型, 考虑现实的结构性数据、 直观的梯度梯度下降培训以及神经网络的计算深度。 我们还考虑网络参数的数量是否超过了所提供的培训数据的数量, 即超度或低于度。 我们结构最差的模型显示, 低度和超度神经形态的加权空间空间空间空间空间空间空间空间空间的重量空间空间空间空间空间空间空间空间空间空间空间空间结构结构结构结构结构结构结构结构结构结构结构结构结构结构结构结构的深度和深度分析, 以深度深度深度的深度分析为深度的深度数据结构结构结构结构结构分析, 以深度的深度的深度分析, 以深度的深度的深度的深度空间空间空间空间结构结构结构结构结构结构结构分析为深度分析, 的深度的深度的深度的深度分析, 的深度分析为深度的深度分析, 的深度的深度分析, 以深度的深度分析, 的深度的深度的深度分析, 的深度的深度的深度分析, 的深度的深度的深度分析, 的深度的深度分析, 分析, 的深度分析, 的深度分析, 的深度的深度分析, 的深度的深度的深度的深度分析, 的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度分析, 的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的深度的

0
下载
关闭预览

相关内容

可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Structure Learning for Directed Trees
Arxiv
0+阅读 · 2021年9月28日
Arxiv
64+阅读 · 2021年6月18日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关VIP内容
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Structure Learning for Directed Trees
Arxiv
0+阅读 · 2021年9月28日
Arxiv
64+阅读 · 2021年6月18日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
8+阅读 · 2018年5月15日
Top
微信扫码咨询专知VIP会员