Despite several attempts, the fundamental mechanisms behind the success of deep neural networks still remain elusive. To this end, we introduce a novel analytic framework to unveil hidden convexity in training deep neural networks. We consider a parallel architecture with multiple ReLU sub-networks, which includes many standard deep architectures and ResNets as its special cases. We then show that the training problem with path regularization can be cast as a single convex optimization problem in a high-dimensional space. We further prove that the equivalent convex program is regularized via a group sparsity inducing norm. Thus, a path regularized parallel architecture with ReLU sub-networks can be viewed as a parsimonious feature selection method in high-dimensions. More importantly, we show that the computational complexity required to globally optimize the equivalent convex problem is polynomial-time with respect to the number of data samples and feature dimension. Therefore, we prove exact polynomial-time trainability for path regularized deep ReLU networks with global optimality guarantees. We also provide several numerical experiments corroborating our theory.


翻译:尽管进行了几次尝试,但深神经网络成功背后的基本机制仍然难以找到。为此,我们引入了一个新的分析框架,以揭开深神经网络培训中隐藏的共性。我们把多个RELU子网络的平行结构视为其特例,其中包括许多标准的深层建筑和ResNet。然后我们表明,路径正规化的培训问题可以作为一个高维空间的单一锥形优化问题来呈现。我们进一步证明,相当的锥形程序通过一个群集聚性诱导规范而正规化。因此,与RELU子网络的路径正规化平行结构可以被视为高二元中一种相似的特征选择方法。更重要的是,我们表明,全球优化等同的锥形问题所需的计算复杂性在数据样本数量和特征方面是多元时的。因此,我们证明,对具有全球最佳性保障的正统化深RELU网络路径的精确多元时训练。我们还提供了数个数字实验,以证实我们理论的理论。

0
下载
关闭预览

相关内容

【2021新书】高阶网络,150页pdf,Higher-Order Networks
专知会员服务
87+阅读 · 2021年11月26日
专知会员服务
41+阅读 · 2021年4月2日
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
84+阅读 · 2020年12月5日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
已删除
将门创投
3+阅读 · 2019年11月25日
LibRec 精选:你见过最有趣的论文标题是什么?
LibRec智能推荐
4+阅读 · 2019年11月6日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
PRL导读-2018年120卷15期
中科院物理所
4+阅读 · 2018年4月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
3+阅读 · 2018年8月17日
VIP会员
相关VIP内容
【2021新书】高阶网络,150页pdf,Higher-Order Networks
专知会员服务
87+阅读 · 2021年11月26日
专知会员服务
41+阅读 · 2021年4月2日
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
84+阅读 · 2020年12月5日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
已删除
将门创投
3+阅读 · 2019年11月25日
LibRec 精选:你见过最有趣的论文标题是什么?
LibRec智能推荐
4+阅读 · 2019年11月6日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
PRL导读-2018年120卷15期
中科院物理所
4+阅读 · 2018年4月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员