Optimization is at the heart of machine learning, statistics and many applied scientific disciplines. It also has a long history in physics, ranging from the minimal action principle to finding ground states of disordered systems such as spin glasses. Proximal algorithms form a class of methods that are broadly applicable and are particularly well-suited to nonsmooth, constrained, large-scale, and distributed optimization problems. There are essentially five proximal algorithms currently known: Forward-backward splitting, Tseng splitting, Douglas-Rachford, alternating direction method of multipliers, and the more recent Davis-Yin. These methods sit on a higher level of abstraction compared to gradient-based ones, with deep roots in nonlinear functional analysis. We show that all of these methods are actually different discretizations of a single differential equation, namely, the simple gradient flow which dates back to Cauchy (1847). An important aspect behind many of the success stories in machine learning relies on "accelerating" the convergence of first-order methods. We show that similar discretization schemes applied to Newton's equation with an additional dissipative force, which we refer to as accelerated gradient flow, allow us to obtain accelerated variants of all these proximal algorithms -- the majority of which are new although some recover known cases in the literature. Furthermore, we extend these methods to stochastic settings, allowing us to make connections with Langevin and Fokker-Planck equations. Similar ideas apply to gradient descent, heavy ball, and Nesterov's method which are simpler. Our results therefore provide a unified framework from which several important optimization methods are nothing but simulations of classical dissipative systems.
翻译:优化是机器学习、 统计和许多应用科学学科的核心。 它在物理学中也有悠久的历史, 从最低行动原则到寻找像旋转眼镜这样的无序系统的地面状态。 Proximal 算法形成了一系列广泛适用、 特别适合非吸附、 受限制、 大规模和分布式优化问题的方法。 目前基本上有五种最优的算法。 许多机器学习的成功故事背后的一个重要方面 : 前向分裂、 尖锐分裂、 Douglas- Rachford 、 乘数交替方向方法, 以及最近的 Davis- Yin。 这些方法与基于梯度的系统相比, 处于更高程度的抽象状态。 这些方法在非线性功能分析中有着深刻的根基。 我们显示, 所有这些方法实际上都不同, 一个单一差异方程式的分立法, 也就是简单易变异法。 机器学习的许多成功故事背后的一个重要方面, 取决于“ 加速” 统一” 方法。 因此, 我们显示, 类似的分解方法适用于 牛顿 方 方 方 的 等方 方 的 的 等 的, 比较 的 级 的 的 的 的 的 比较性 的 的 直态 和 等式 的, 我们的 渐变法 使得 我们的 的 的 渐变法 的 快速 的 的 的 的 的 渐变法 的 的 加速 的 的 渐变法 的 渐变法 的 使得 我们 的 的 的 的 的 加速 的 的 的 的 渐变法 的 的 的 的 加速 的 的 的 的 的 的 的 的 的 的 渐变法 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 渐变法 渐变法 的 的 的 的 的 的 加速 渐 加速 的 的 的 的 的 的 的 的 的 加速 的 的 的 的 加速 加速 的 的 渐变 渐 渐 加速