Training deep neural networks is a well-known highly non-convex problem. In recent works, it is shown that there is no duality gap for regularized two-layer neural networks with ReLU activation, which enables global optimization via convex programs. For multi-layer linear networks with vector outputs, we formulate convex dual problems and demonstrate that the duality gap is non-zero for depth three and deeper networks. However, by modifying the deep networks to more powerful parallel architectures, we show that the duality gap is exactly zero. Therefore, strong convex duality holds, and hence there exist equivalent convex programs that enable training deep networks to global optimality. We also demonstrate that the weight decay regularization in the parameters explicitly encourages low-rank solutions via closed-form expressions. For three-layer non-parallel ReLU networks, we show that strong duality holds for rank-1 data matrices, however, the duality gap is non-zero for whitened data matrices. Similarly, by transforming the neural network architecture into a corresponding parallel version, the duality gap vanishes.


翻译:深层神经网络培训是一个众所周知的高度非凝固的高度神经网络问题。 在最近的工程中, 显示正规化的双层神经网络与ReLU 激活没有双重差距, 这使得通过 convex 程序实现全球优化。 对于带有矢量输出的多层线性网络, 我们开发了二次曲线双重问题, 并表明深度3 和深度网络的双重差距是非零的。 但是, 通过将深层网络改造为更强大的平行结构, 我们显示二元性差距完全为零。 因此, 强大的二次曲线双重性存在, 并因此存在等量的同类方案, 使深层网络培训达到全球最佳性。 我们还表明, 参数中的重量衰减正规化明确鼓励通过封闭式表达方式的低级解决方案。 对于三层非平行的RELU 网络, 我们显示, 级1 级数据矩阵的双重性差距是非零。 同样, 将神经网络结构转换成相应的平行版本, 双元差距消失 。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
63+阅读 · 2021年8月20日
专知会员服务
28+阅读 · 2021年8月2日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
32+阅读 · 2020年4月15日
深度学习界圣经“花书”《Deep Learning》中文版来了
专知会员服务
233+阅读 · 2019年10月26日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年12月9日
Arxiv
0+阅读 · 2021年12月4日
Arxiv
37+阅读 · 2021年2月10日
Arxiv
7+阅读 · 2020年6月29日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
4+阅读 · 2017年1月2日
VIP会员
相关资讯
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年12月9日
Arxiv
0+阅读 · 2021年12月4日
Arxiv
37+阅读 · 2021年2月10日
Arxiv
7+阅读 · 2020年6月29日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
4+阅读 · 2017年1月2日
Top
微信扫码咨询专知VIP会员