DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

由于深度神经网络（DNN）模型的训练具有非凸性质，它们的有效性依赖于非凸优化启发式方法的使用。传统的DNN训练方法通常需要昂贵的实证方法来生成成功的模型，并且没有明确的理论基础。在这篇论文中，我们研究了如何利用凸优化理论改进神经网络的训练，并提供对它们最优权重的更好解释。在这篇论文中，我们专注于具有分段线性激活函数的两层神经网络，并表明它们可以被表述为有限维度的凸程序，带有促进稀疏性的正则化项，这是一种群体Lasso的变体。我们首先利用半无限编程理论证明有限宽度神经网络的强对偶性，然后将这些架构等价地描述为高维凸模型。值得注意的是，当数据矩阵的秩有界（这是卷积网络中的情况）时，解决凸程序的最坏情况复杂度在样本数量和神经元数量上是多项式的。为了将我们的方法扩展到任意秩的训练数据，我们基于zonotope采样开发了一种新的多项式时间近似方案，该方案具有保证的近似比率。我们的凸模型可以使用标准的凸求解器进行训练，而无需像非凸方法那样使用启发式方法或进行大量的超参数调整。由于凸性，优化器超参数如初始化、批大小和步长计划对最终模型没有影响。通过大量的数值实验，我们展示了凸模型可以胜过传统的非凸方法，并且对优化器超参数不敏感。

在论文的其余部分，我们首先将分析扩展到某些标准的两层和三层卷积神经网络（CNN），这些网络可以在全多项式时间内全局优化。与第一部分研究的全连接网络不同，我们证明了这些CNN的等价表述在所有输入维度上都具有全多项式复杂性，而无需依赖任何近似技术，因此在计算复杂性上有显著的改进。然后，我们讨论将我们的凸分析扩展到各种神经网络架构，包括向量输出网络、批量归一化、生成对抗网络（GANs）、更深的架构和阈值网络。

引言

深度神经网络因其在大量机器学习任务中的出色实证成功而受到欢迎。然而，尽管它们在机器学习中的普遍存在，以及人们对其的热情不断激增，但我们对神经网络模型的基本理解仍存在重大差距。理解其出色的泛化特性背后的机制仍是一个未解的问题。训练深度神经网络的非凸性引起了一项重大的挑战。在非凸优化中，优化方法的选择及其内部参数，如初始化、小批处理和步长，对学习模型的质量有着显著的影响。这与凸优化问题形成了鲜明的对比，在凸优化问题中，这些优化参数没有影响，可以以非常健壮、高效、透明和可复制的方式获得全局最优解。因此，我们将通过凸优化理论的视角研究深度神经网络的训练问题，并引入精确的凸优化形式，其全局最优解可以通过标准的凸优化求解器实现。在下一部分，我们将为整篇论文中将要使用的概念提供背景。

这篇论文的主要贡献可以总结如下：

神经网络的全局最优训练：我们引入了一个凸分析框架，用来描述带有分段线性激活函数（包括ReLU，Leaky ReLU和绝对值激活）的神经网络的训练，将其视为等效的有限维凸规划问题。
神经网络的高效训练：解决我们的凸规划问题的一个潜在限制是，当应用到无界秩的数据时，最坏情况下的指数复杂性，这在全连接（FC）神经网络中常常出现。我们引入了一种基于随机锥体顶点采样的近似算法，它是完全的多项式时间，用于解决这种复杂性。然后，我们证明了关于全局最优的强近似保证，并在实践中展示了其可扩展性。
理解架构选择对隐式正则化现象的影响：提出的凸模型通过多种凸正则化机制，揭示了神经网络模型的新颖解释。正则化器的范围从组ℓp-范数到核范数，取决于网络架构，如连接结构和输出数量。因此，我们提供了对由架构选择引起的隐式正则化机制的完全理解。

成为VIP会员查看完整内容

相关内容

神经网络

关注 5910

人工神经网络（Artificial Neural Network，即ANN ），是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。最近十多年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

【斯坦福博士论文】以数据为中心机器学习的理论与算法，209页pdf

专知会员服务

85+阅读 · 2023年7月17日

【斯坦福博士论文】大模型(基础模型)现实应用，178页pdf

专知会员服务

120+阅读 · 2023年7月9日

【斯坦福博士论文】基于结构化状态空间的序列建模，330页pdf

专知会员服务

45+阅读 · 2023年6月28日

【牛津大学博士论文】深度学习中模型和数据的压缩，160页pdf

专知会员服务

83+阅读 · 2023年4月25日