NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点 - 专知VIP

会员服务 ·

3

NeurIPS 2021 · 非凸优化 · 论文 ·

2021 年 12 月 6 日

NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

非凸优化（nonconvex optimization）是优化理论的核心研究领域之一，因为许多前沿机器学习问题都具有非凸的损失函数，包括深度神经网络、主成分分析、张量分解等。在最坏的情况下，找到非凸函数的全局最小值属于 NP-hard 问题。不过最近的许多实证与理论工作都表明，对于大量有着广泛应用的机器学习问题，所有局部最小值几乎都与全局最小值相等。因此，许多理论工作专注于寻找局部最优解而不是全局最优解。在这些工作中，鞍点成为了设计算法的主要障碍，因为高维的非凸目标函数可能含有大量鞍点，且它们往往具有远大于全局最优解的函数值。

因此，逃离鞍点是非凸优化理论中最重要的问题之一。具体来说，对于二阶可导的维函数，我们的目标是找到一个近似的局部最优解。近期的实证研究表明，现实世界中复杂的机器学习问题往往可以被简单的算法有效解决，这些算法在实践中也可以更容易地实现与维护。与之相反，具有嵌套循环结构的优化算法在问题规模增长时往往具有较大的开销，或存在调参不便、数值稳定性较弱等问题，使它们较难找到实际应用。出于这一考量，现有的逃离鞍点的研究多聚焦于开发基于梯度下降的，具有单循环结构的简单优化算法。在本文之前，最先进的算法为 Jin 等人提出的扰动加速梯度下降算法（perturbed accelerated gradient descent, PAGD），它可以在次循环内找到一个近似的局部最优解。

成为VIP会员查看完整内容

24

相关内容

NeurIPS 2021

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

专知会员服务

30+阅读 · 2021年12月13日

斯坦福助理教授马腾宇：机器学习非凸优化问题

专知会员服务

39+阅读 · 2021年5月30日

最新《非凸优化理论》进展书册，79页pdf

最新《非凸优化理论》进展书册，79页pdf

专知会员服务

110+阅读 · 2020年12月18日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

【Google】梯度下降，48页ppt

【Google】梯度下降，48页ppt

专知会员服务

81+阅读 · 2020年12月5日

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

专知会员服务

29+阅读 · 2020年10月11日

【ICML2020】机器学习无参数在线优化，294页ppt

【ICML2020】机器学习无参数在线优化，294页ppt

专知会员服务

55+阅读 · 2020年8月1日

【KDD2020】最小方差采样用于图神经网络的快速训练

【KDD2020】最小方差采样用于图神经网络的快速训练

专知会员服务

28+阅读 · 2020年7月13日

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

专知会员服务

44+阅读 · 2020年1月10日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知

7+阅读 · 2021年11月29日

梯度下降算法的工作原理

梯度下降算法的工作原理

极市平台

6+阅读 · 2020年11月2日

【优博微展2019】李志泽：简单快速的机器学习优化方法

【优博微展2019】李志泽：简单快速的机器学习优化方法

清华大学研究生教育

14+阅读 · 2019年10月8日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

机器之心

7+阅读 · 2018年11月20日

如何改进梯度下降算法

如何改进梯度下降算法

论智

9+阅读 · 2018年4月19日

观点 | 增加深度，加速神经网络优化？这是一份反直觉的实验结果

观点 | 增加深度，加速神经网络优化？这是一份反直觉的实验结果

机器之心

4+阅读 · 2018年3月17日

算法优化｜梯度下降和随机梯度下降 — 从0开始

算法优化｜梯度下降和随机梯度下降 — 从0开始

全球人工智能

8+阅读 · 2017年12月25日

机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数

机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数

机器学习算法与Python学习

3+阅读 · 2017年9月23日

如何有效避开鞍点——Michael Jordan 在 BAIR blog 发文

如何有效避开鞍点——Michael Jordan 在 BAIR blog 发文

AI研习社

6+阅读 · 2017年9月19日

On expressive rule-based logics

Arxiv

0+阅读 · 2022年2月7日

The full rank condition for sparse random matrices

Arxiv

0+阅读 · 2022年2月7日

Why Does Propositional Quantification Make Logics on Trees Robustly Hard?

Arxiv

0+阅读 · 2022年2月6日

Test Set Sizing Via Random Matrix Theory

Arxiv

0+阅读 · 2022年2月5日

Color Image Inpainting via Robust Pure Quaternion Matrix Completion: Error Bound and Weighted Loss

Arxiv

0+阅读 · 2022年2月4日

Peering Beyond the Gradient Veil with Distributed Auto Differentiation

Arxiv

0+阅读 · 2022年2月3日

Optimality and Stability in Non-Convex Smooth Games

Optimality and Stability in Non-Convex Smooth Games

Arxiv

0+阅读 · 2022年2月3日

Escape saddle points by a simple gradient-descent based algorithm

Arxiv

4+阅读 · 2021年11月28日

Open-book Video Captioning with Retrieve-Copy-Generate Network

Arxiv

7+阅读 · 2021年3月9日

Cache-Enabled Dynamic Rate Allocation via Deep Self-Transfer Reinforcement Learning

Arxiv

4+阅读 · 2018年3月30日

VIP会员

相关主题

相关VIP内容

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

专知会员服务

30+阅读 · 2021年12月13日

斯坦福助理教授马腾宇：机器学习非凸优化问题

专知会员服务

39+阅读 · 2021年5月30日

最新《非凸优化理论》进展书册，79页pdf

最新《非凸优化理论》进展书册，79页pdf

专知会员服务

110+阅读 · 2020年12月18日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

【Google】梯度下降，48页ppt

【Google】梯度下降，48页ppt

专知会员服务

81+阅读 · 2020年12月5日

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

专知会员服务

29+阅读 · 2020年10月11日

【ICML2020】机器学习无参数在线优化，294页ppt

【ICML2020】机器学习无参数在线优化，294页ppt

专知会员服务

55+阅读 · 2020年8月1日

【KDD2020】最小方差采样用于图神经网络的快速训练

【KDD2020】最小方差采样用于图神经网络的快速训练

专知会员服务

28+阅读 · 2020年7月13日

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

专知会员服务

44+阅读 · 2020年1月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《使用量化测量将传感器节点关联到融合中心的算法设计》171页

军事前沿模型

提升军事训练能力的最佳人工智能模拟工具

《社交媒体信息作战》最新48页技术报告

相关资讯

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知

7+阅读 · 2021年11月29日

梯度下降算法的工作原理

梯度下降算法的工作原理

极市平台

6+阅读 · 2020年11月2日

【优博微展2019】李志泽：简单快速的机器学习优化方法

【优博微展2019】李志泽：简单快速的机器学习优化方法

清华大学研究生教育

14+阅读 · 2019年10月8日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

机器之心

7+阅读 · 2018年11月20日

如何改进梯度下降算法

如何改进梯度下降算法

论智

9+阅读 · 2018年4月19日

观点 | 增加深度，加速神经网络优化？这是一份反直觉的实验结果

观点 | 增加深度，加速神经网络优化？这是一份反直觉的实验结果

机器之心

4+阅读 · 2018年3月17日

算法优化｜梯度下降和随机梯度下降 — 从0开始

算法优化｜梯度下降和随机梯度下降 — 从0开始

全球人工智能

8+阅读 · 2017年12月25日

机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数

机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数

机器学习算法与Python学习

3+阅读 · 2017年9月23日

如何有效避开鞍点——Michael Jordan 在 BAIR blog 发文

如何有效避开鞍点——Michael Jordan 在 BAIR blog 发文

AI研习社

6+阅读 · 2017年9月19日

相关论文

On expressive rule-based logics

Arxiv

0+阅读 · 2022年2月7日

The full rank condition for sparse random matrices

Arxiv

0+阅读 · 2022年2月7日

Why Does Propositional Quantification Make Logics on Trees Robustly Hard?

Arxiv

0+阅读 · 2022年2月6日

Test Set Sizing Via Random Matrix Theory

Arxiv

0+阅读 · 2022年2月5日

Color Image Inpainting via Robust Pure Quaternion Matrix Completion: Error Bound and Weighted Loss

Arxiv

0+阅读 · 2022年2月4日

Peering Beyond the Gradient Veil with Distributed Auto Differentiation

Arxiv

0+阅读 · 2022年2月3日

Optimality and Stability in Non-Convex Smooth Games

Optimality and Stability in Non-Convex Smooth Games

Arxiv

0+阅读 · 2022年2月3日

Escape saddle points by a simple gradient-descent based algorithm

Arxiv

4+阅读 · 2021年11月28日

Open-book Video Captioning with Retrieve-Copy-Generate Network

Arxiv

7+阅读 · 2021年3月9日

Cache-Enabled Dynamic Rate Allocation via Deep Self-Transfer Reinforcement Learning

Arxiv

4+阅读 · 2018年3月30日

微信扫码咨询专知VIP会员