The loss surfaces of deep neural networks have been the subject of several studies, theoretical and experimental, over the last few years. One strand of work considers the complexity, in the sense of local optima, of high dimensional random functions with the aim of informing how local optimisation methods may perform in such complicated settings. Prior work of Choromanska et al (2015) established a direct link between the training loss surfaces of deep multi-layer perceptron networks and spherical multi-spin glass models under some very strong assumptions on the network and its data. In this work, we test the validity of this approach by removing the undesirable restriction to ReLU activation functions. In doing so, we chart a new path through the spin glass complexity calculations using supersymmetric methods in Random Matrix Theory which may prove useful in other contexts. Our results shed new light on both the strengths and the weaknesses of spin glass models in this context.


翻译:过去几年来,深神经网络的损失面一直是若干研究、理论和实验研究的主题,其中一项工作考虑了高维随机功能的复杂性,从局部opima的意义上讲,高维随机功能是为了了解在如此复杂的环境下当地优化方法如何发挥作用。Choromanska等人(2015年)先前的工作在深多层透视网络和球形多面玻璃模型的培训损失面之间建立了直接联系,这些培训面是在网络及其数据的一些非常强烈的假设下建立的。在这项工作中,我们通过取消对RELU激活功能的不可取限制来检验这一方法的有效性。在这样做的时候,我们用随机矩阵理论中的超对称方法绘制了一条通过旋转玻璃复杂性计算的新路径,这在其它情况下可能证明是有用的。我们的结果为旋转玻璃模型在这方面的长处和短处提供了新的线索。

0
下载
关闭预览

相关内容

Surface 是微软公司( Microsoft)旗下一系列使用 Windows 10(早期为 Windows 8.X)操作系统的电脑产品,目前有 Surface、Surface Pro 和 Surface Book 三个系列。 2012 年 6 月 18 日,初代 Surface Pro/RT 由时任微软 CEO 史蒂夫·鲍尔默发布于在洛杉矶举行的记者会,2012 年 10 月 26 日上市销售。
【图与几何深度学习】Graph and geometric deep learning,49页ppt
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月7日
Arxiv
0+阅读 · 2021年8月4日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
9+阅读 · 2020年2月15日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
3+阅读 · 2015年11月29日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年8月7日
Arxiv
0+阅读 · 2021年8月4日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
9+阅读 · 2020年2月15日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
3+阅读 · 2015年11月29日
Top
微信扫码咨询专知VIP会员