由于深度神经网络(DNN)模型的训练具有非凸性质,它们的有效性依赖于非凸优化启发式方法的使用。传统的DNN训练方法通常需要昂贵的实证方法来生成成功的模型,并且没有明确的理论基础。在这篇论文中,我们研究了如何利用凸优化理论改进神经网络的训练,并提供对它们最优权重的更好解释。在这篇论文中,我们专注于具有分段线性激活函数的两层神经网络,并表明它们可以被表述为有限维度的凸程序,带有促进稀疏性的正则化项,这是一种群体Lasso的变体。我们首先利用半无限编程理论证明有限宽度神经网络的强对偶性,然后将这些架构等价地描述为高维凸模型。值得注意的是,当数据矩阵的秩有界(这是卷积网络中的情况)时,解决凸程序的最坏情况复杂度在样本数量和神经元数量上是多项式的。为了将我们的方法扩展到任意秩的训练数据,我们基于zonotope采样开发了一种新的多项式时间近似方案,该方案具有保证的近似比率。我们的凸模型可以使用标准的凸求解器进行训练,而无需像非凸方法那样使用启发式方法或进行大量的超参数调整。由于凸性,优化器超参数如初始化、批大小和步长计划对最终模型没有影响。通过大量的数值实验,我们展示了凸模型可以胜过传统的非凸方法,并且对优化器超参数不敏感。
在论文的其余部分,我们首先将分析扩展到某些标准的两层和三层卷积神经网络(CNN),这些网络可以在全多项式时间内全局优化。与第一部分研究的全连接网络不同,我们证明了这些CNN的等价表述在所有输入维度上都具有全多项式复杂性,而无需依赖任何近似技术,因此在计算复杂性上有显著的改进。然后,我们讨论将我们的凸分析扩展到各种神经网络架构,包括向量输出网络、批量归一化、生成对抗网络(GANs)、更深的架构和阈值网络。
引言
深度神经网络因其在大量机器学习任务中的出色实证成功而受到欢迎。然而,尽管它们在机器学习中的普遍存在,以及人们对其的热情不断激增,但我们对神经网络模型的基本理解仍存在重大差距。理解其出色的泛化特性背后的机制仍是一个未解的问题。训练深度神经网络的非凸性引起了一项重大的挑战。在非凸优化中,优化方法的选择及其内部参数,如初始化、小批处理和步长,对学习模型的质量有着显著的影响。这与凸优化问题形成了鲜明的对比,在凸优化问题中,这些优化参数没有影响,可以以非常健壮、高效、透明和可复制的方式获得全局最优解。因此,我们将通过凸优化理论的视角研究深度神经网络的训练问题,并引入精确的凸优化形式,其全局最优解可以通过标准的凸优化求解器实现。在下一部分,我们将为整篇论文中将要使用的概念提供背景。
这篇论文的主要贡献可以总结如下: