【NeurIPS2020-北大】非凸优化裁剪算法的改进分析 - 专知VIP

会员服务 ·

7

非凸优化 · 裁剪算法 ·

2020 年 10 月 11 日

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Improved Analysis of Clipping Algorithms for Non-convex Optimization

梯度裁剪在深度神经网络训练中应用广泛，部分原因是其在解决梯度爆炸问题上的实用性。最近，Zhang等人[2020a]通过引入一个新的假设(L0, L1)-平滑性，证明剪切(随机)梯度下降(GD)比普通的GD/SGD收敛得更快，该假设表征了深度神经网络中通常遇到的梯度剧烈波动。然而，它们在问题相关参数上的迭代复杂性是相当悲观的，并且裁剪与其他关键技术(如动量加速)相结合的理论证明仍然缺乏。在本文中，我们提出了一个研究剪切算法的一般框架来弥补这一差距，该框架也考虑了动量法。我们提供了框架在确定性和随机设置的收敛性分析，并通过比较它们与现有的下界来证明我们的结果的紧密性。我们的结果表明，剪裁方法的效率不会退化，即使在景观的高度非光滑的区域。实验证明了基于裁剪的方法在深度学习任务中的优越性。

https://arxiv.org/abs/2010.02519

成为VIP会员查看完整内容

29

相关内容

非凸优化

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知会员服务

49+阅读 · 2020年11月9日

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

【NeurIPS 2020】大规模分布式鲁棒优化方法

【NeurIPS 2020】大规模分布式鲁棒优化方法

专知会员服务

26+阅读 · 2020年10月13日

【NeurIPS2020】迭代深度图学习的图神经网络:更好和鲁棒的节点嵌入

【NeurIPS2020】迭代深度图学习的图神经网络:更好和鲁棒的节点嵌入

专知会员服务

31+阅读 · 2020年9月30日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

48+阅读 · 2020年9月28日

【NeurIPS2020】梯度增强的转导优化和泛化分析及在多尺度图神经网络中的应用

专知会员服务

14+阅读 · 2020年9月27日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

专知会员服务

103+阅读 · 2020年6月28日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

专知会员服务

44+阅读 · 2020年1月10日

八篇NeurIPS 2019最新公布的【图神经网络（GNN）】相关论文

八篇NeurIPS 2019最新公布的【图神经网络（GNN）】相关论文

专知

75+阅读 · 2019年9月10日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

GAN生成式对抗网络

7+阅读 · 2019年2月15日

从动力学角度看优化算法：一个更整体的视角

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

机器之心

7+阅读 · 2018年11月20日

【学界】基于生成对抗网络的低秩图像生成方法

【学界】基于生成对抗网络的低秩图像生成方法

GAN生成式对抗网络

9+阅读 · 2018年7月13日

【学界】六种GAN评估指标的综合评估实验，迈向定量评估GAN的重要一步

【学界】六种GAN评估指标的综合评估实验，迈向定量评估GAN的重要一步

GAN生成式对抗网络

3+阅读 · 2018年7月6日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

Facebook FAIR实验室田渊栋等人最新论文：别担心深度网络中的虚假局部极小值

Facebook FAIR实验室田渊栋等人最新论文：别担心深度网络中的虚假局部极小值

专知

6+阅读 · 2017年12月8日

A Primal-Dual Weak Galerkin Method for Div-Curl Systems with low-regularity solutions

Arxiv

0+阅读 · 2020年11月25日

Conditional Uncorrelation and Efficient Non-approximate Subset Selection in Sparse Regression

Arxiv

0+阅读 · 2020年11月24日

Conjecturing-Based Computational Discovery of Patterns in Data

Arxiv

0+阅读 · 2020年11月23日

Asymptotics of the Empirical Bootstrap Method Beyond Asymptotic Normality

Arxiv

0+阅读 · 2020年11月23日

Improved Confidence Bounds for the Linear Logistic Model and Applications to Linear Bandits

Arxiv

0+阅读 · 2020年11月23日

Estimating network memberships by mixed regularized spectral clustering

Arxiv

0+阅读 · 2020年11月23日

Non-Reversible Parallel Tempering: a Scalable Highly Parallel MCMC Scheme

Arxiv

0+阅读 · 2020年11月22日

Convergence Analysis of Homotopy-SGD for non-convex optimization

Arxiv

0+阅读 · 2020年11月20日

An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits

Arxiv

0+阅读 · 2020年11月20日

Variational Bayes for high-dimensional linear regression with sparse priors

Arxiv

0+阅读 · 2020年11月19日

VIP会员

相关主题

相关VIP内容

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知会员服务

49+阅读 · 2020年11月9日

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

【NeurIPS 2020】大规模分布式鲁棒优化方法

【NeurIPS 2020】大规模分布式鲁棒优化方法

专知会员服务

26+阅读 · 2020年10月13日

【NeurIPS2020】迭代深度图学习的图神经网络:更好和鲁棒的节点嵌入

【NeurIPS2020】迭代深度图学习的图神经网络:更好和鲁棒的节点嵌入

专知会员服务

31+阅读 · 2020年9月30日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

48+阅读 · 2020年9月28日

【NeurIPS2020】梯度增强的转导优化和泛化分析及在多尺度图神经网络中的应用

专知会员服务

14+阅读 · 2020年9月27日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

非凸优化与统计学，89页ppt，普林斯顿Yuxin Chen博士

专知会员服务

103+阅读 · 2020年6月28日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

八篇NeurIPS 2019【图神经网络（GNN）】相关论文

专知会员服务

44+阅读 · 2020年1月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

八篇NeurIPS 2019最新公布的【图神经网络（GNN）】相关论文

八篇NeurIPS 2019最新公布的【图神经网络（GNN）】相关论文

专知

75+阅读 · 2019年9月10日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

GAN生成式对抗网络

7+阅读 · 2019年2月15日

从动力学角度看优化算法：一个更整体的视角

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

深度 | 如何理解深度学习的优化？通过分析梯度下降的轨迹

机器之心

7+阅读 · 2018年11月20日

【学界】基于生成对抗网络的低秩图像生成方法

【学界】基于生成对抗网络的低秩图像生成方法

GAN生成式对抗网络

9+阅读 · 2018年7月13日

【学界】六种GAN评估指标的综合评估实验，迈向定量评估GAN的重要一步

【学界】六种GAN评估指标的综合评估实验，迈向定量评估GAN的重要一步

GAN生成式对抗网络

3+阅读 · 2018年7月6日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

Facebook FAIR实验室田渊栋等人最新论文：别担心深度网络中的虚假局部极小值

Facebook FAIR实验室田渊栋等人最新论文：别担心深度网络中的虚假局部极小值

专知

6+阅读 · 2017年12月8日

相关论文

A Primal-Dual Weak Galerkin Method for Div-Curl Systems with low-regularity solutions

Arxiv

0+阅读 · 2020年11月25日

Conditional Uncorrelation and Efficient Non-approximate Subset Selection in Sparse Regression

Arxiv

0+阅读 · 2020年11月24日

Conjecturing-Based Computational Discovery of Patterns in Data

Arxiv

0+阅读 · 2020年11月23日

Asymptotics of the Empirical Bootstrap Method Beyond Asymptotic Normality

Arxiv

0+阅读 · 2020年11月23日

Improved Confidence Bounds for the Linear Logistic Model and Applications to Linear Bandits

Arxiv

0+阅读 · 2020年11月23日

Estimating network memberships by mixed regularized spectral clustering

Arxiv

0+阅读 · 2020年11月23日

Non-Reversible Parallel Tempering: a Scalable Highly Parallel MCMC Scheme

Arxiv

0+阅读 · 2020年11月22日

Convergence Analysis of Homotopy-SGD for non-convex optimization

Arxiv

0+阅读 · 2020年11月20日

An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits

Arxiv

0+阅读 · 2020年11月20日

Variational Bayes for high-dimensional linear regression with sparse priors

Arxiv

0+阅读 · 2020年11月19日

微信扫码咨询专知VIP会员