We prove that finding all globally optimal two-layer ReLU neural networks can be performed by solving a convex optimization program with cone constraints. Our analysis is novel, characterizes all optimal solutions, and does not leverage duality-based analysis which was recently used to lift neural network training into convex spaces. Given the set of solutions of our convex optimization program, we show how to construct exactly the entire set of optimal neural networks. We provide a detailed characterization of this optimal set and its invariant transformations. As additional consequences of our convex perspective, (i) we establish that Clarke stationary points found by stochastic gradient descent correspond to the global optimum of a subsampled convex problem (ii) we provide a polynomial-time algorithm for checking if a neural network is a global minimum of the training loss (iii) we provide an explicit construction of a continuous path between any neural network and the global minimum of its sublevel set and (iv) characterize the minimal size of the hidden layer so that the neural network optimization landscape has no spurious valleys. Overall, we provide a rich framework for studying the landscape of neural network training loss through convexity.


翻译:我们的分析是新颖的,具有所有最佳解决方案的特点,并且没有利用最近用来将神经网络培训提升到 convex 空间的基于双重性的分析。鉴于我们的 convex 优化方案的一套解决方案,我们展示了如何精确地构建全套最佳神经网络。我们对这一最佳神经网络及其内在变异性作了详细的描述。作为我们convex 观点的额外影响,我们建立了通过蒸发梯度下降发现的中央固定点,这与次抽样的锥体问题的全球最佳对应;(二)我们提供了一种多元时间算法,用于检查神经网络是否是全球最低培训损失的神经网络;(三)我们为任何神经网络及其子级全球最低值之间的连续路径提供了明确的构造,以及(四)描述隐藏层的最小尺寸,以便神经网络优化景观没有不直线性谷。总体而言,我们提供了一个丰富的网络框架,用于研究神经损失的景观。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
一文搞懂反向传播
机器学习与推荐算法
18+阅读 · 2020年3月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
7+阅读 · 2021年5月13日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
Arxiv
7+阅读 · 2020年6月29日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
相关资讯
一文搞懂反向传播
机器学习与推荐算法
18+阅读 · 2020年3月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
7+阅读 · 2021年5月13日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
Arxiv
7+阅读 · 2020年6月29日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
5+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员