Optimization is at the heart of machine learning, statistics and many applied scientific disciplines. It also has a long history in physics, ranging from the minimal action principle to finding ground states of disordered systems such as spin glasses. Proximal algorithms form a class of methods that are broadly applicable and are particularly well-suited to nonsmooth, constrained, large-scale, and distributed optimization problems. There are essentially five proximal algorithms currently known: Forward-backward splitting, Tseng splitting, Douglas-Rachford, alternating direction method of multipliers, and the more recent Davis-Yin. These methods sit on a higher level of abstraction compared to gradient-based ones, with deep roots in nonlinear functional analysis. We show that all of these methods are actually different discretizations of a single differential equation, namely, the simple gradient flow which dates back to Cauchy (1847). An important aspect behind many of the success stories in machine learning relies on "accelerating" the convergence of first-order methods. We show that similar discretization schemes applied to Newton's equation with an additional dissipative force, which we refer to as accelerated gradient flow, allow us to obtain accelerated variants of all these proximal algorithms -- the majority of which are new although some recover known cases in the literature. Furthermore, we extend these methods to stochastic settings, allowing us to make connections with Langevin and Fokker-Planck equations. Similar ideas apply to gradient descent, heavy ball, and Nesterov's method which are simpler. Our results therefore provide a unified framework from which several important optimization methods are nothing but simulations of classical dissipative systems.


翻译:优化是机器学习、 统计和许多应用科学学科的核心。 它在物理学中也有悠久的历史, 从最低行动原则到寻找像旋转眼镜这样的无序系统的地面状态。 Proximal 算法形成了一系列广泛适用、 特别适合非吸附、 受限制、 大规模和分布式优化问题的方法。 目前基本上有五种最优的算法。 许多机器学习的成功故事背后的一个重要方面 : 前向分裂、 尖锐分裂、 Douglas- Rachford 、 乘数交替方向方法, 以及最近的 Davis- Yin。 这些方法与基于梯度的系统相比, 处于更高程度的抽象状态。 这些方法在非线性功能分析中有着深刻的根基。 我们显示, 所有这些方法实际上都不同, 一个单一差异方程式的分立法, 也就是简单易变异法。 机器学习的许多成功故事背后的一个重要方面, 取决于“ 加速” 统一” 方法。 因此, 我们显示, 类似的分解方法适用于 牛顿 方 方 方 的 等方 方 的 的 等 的, 比较 的 级 的 的 的 的 的 比较性 的 的 直态 和 等式 的, 我们的 渐变法 使得 我们的 的 的 渐变法 的 快速 的 的 的 的 的 渐变法 的 的 加速 的 的 渐变法 的 渐变法 的 使得 我们 的 的 的 的 的 加速 的 的 的 的 渐变法 的 的 的 的 加速 的 的 的 的 的 的 的 的 的 的 渐变法 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 渐变法 渐变法 的 的 的 的 的 的 加速 渐 加速 的 的 的 的 的 的 的 的 的 加速 的 的 的 的 加速 加速 的 的 渐变 渐 渐 加速

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
124+阅读 · 2020年11月20日
专知会员服务
159+阅读 · 2020年1月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
ICML2019机器学习顶会接受论文列表!
专知
10+阅读 · 2019年5月12日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | COLT 2019等国际会议信息9条
Call4Papers
6+阅读 · 2018年9月21日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月30日
Arxiv
0+阅读 · 2021年6月29日
VIP会员
相关资讯
ICML2019机器学习顶会接受论文列表!
专知
10+阅读 · 2019年5月12日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | COLT 2019等国际会议信息9条
Call4Papers
6+阅读 · 2018年9月21日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员