【NeurIPS2020-北大】非凸优化裁剪算法的改进分析 - 专知

会员服务 ·

0

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

2020 年 10 月 12 日 专知

Improved Analysis of Clipping Algorithms for Non-convex Optimization

梯度裁剪在深度神经网络训练中应用广泛，部分原因是其在解决梯度爆炸问题上的实用性。最近，Zhang等人[2020a]通过引入一个新的假设(L0, L1)-平滑性，证明剪切(随机)梯度下降(GD)比普通的GD/SGD收敛得更快，该假设表征了深度神经网络中通常遇到的梯度剧烈波动。然而，它们在问题相关参数上的迭代复杂性是相当悲观的，并且裁剪与其他关键技术(如动量加速)相结合的理论证明仍然缺乏。在本文中，我们提出了一个研究剪切算法的一般框架来弥补这一差距，该框架也考虑了动量法。我们提供了框架在确定性和随机设置的收敛性分析，并通过比较它们与现有的下界来证明我们的结果的紧密性。我们的结果表明，剪裁方法的效率不会退化，即使在景观的高度非光滑的区域。实验证明了基于裁剪的方法在深度学习任务中的优越性。

https://arxiv.org/abs/2010.02519

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“CANO” 可以获取《【NeurIPS2020-北大】非凸优化裁剪算法的改进分析》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

裁剪算法

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

【NeurIPS2020】无限可能的联合对比学习

专知会员服务

29+阅读 · 2020年10月2日

【NeurIPS2020】梯度增强的转导优化和泛化分析及在多尺度图神经网络中的应用

专知会员服务

14+阅读 · 2020年9月27日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

【KDD2020】稀疏优化的块分解算法

专知会员服务

21+阅读 · 2020年9月2日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

【伯克利-滴滴出行】深度学习多源领域自适应综述论文

【伯克利-滴滴出行】深度学习多源领域自适应综述论文

专知

7+阅读 · 2020年2月28日

【麻省理工学院MIT】图神经网络的泛化与表示极限，Generalization Representation limit GNN

【麻省理工学院MIT】图神经网络的泛化与表示极限，Generalization Representation limit GNN

专知

4+阅读 · 2020年2月24日

Verification and Parameter Synthesis for Stochastic Systems using Optimistic Optimization

Arxiv

0+阅读 · 2020年12月3日

DA2: Deep Attention Adapter for Memory-EfficientOn-Device Multi-Domain Learning

DA2: Deep Attention Adapter for Memory-EfficientOn-Device Multi-Domain Learning

Arxiv

1+阅读 · 2020年12月2日

Persistent Reductions in Regularized Loss Minimization for Variable Selection

Arxiv

0+阅读 · 2020年11月30日

Functional Autoregressive Processes in Reproducing Kernel Hilbert Spaces

Arxiv

0+阅读 · 2020年11月27日

Optimization and Generalization Analysis of Transduction through Gradient Boosting and Application to Multi-scale Graph Neural Networks

Arxiv

6+阅读 · 2020年6月15日

VIP会员

相关主题

梯度爆炸问题

相关VIP内容

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

【NeurIPS2020】无限可能的联合对比学习

专知会员服务

29+阅读 · 2020年10月2日

【NeurIPS2020】梯度增强的转导优化和泛化分析及在多尺度图神经网络中的应用

专知会员服务

14+阅读 · 2020年9月27日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

【KDD2020】稀疏优化的块分解算法

专知会员服务

21+阅读 · 2020年9月2日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

【伯克利-滴滴出行】深度学习多源领域自适应综述论文

【伯克利-滴滴出行】深度学习多源领域自适应综述论文

专知

7+阅读 · 2020年2月28日

【麻省理工学院MIT】图神经网络的泛化与表示极限，Generalization Representation limit GNN

【麻省理工学院MIT】图神经网络的泛化与表示极限，Generalization Representation limit GNN

专知

4+阅读 · 2020年2月24日

相关论文

Verification and Parameter Synthesis for Stochastic Systems using Optimistic Optimization

Arxiv

0+阅读 · 2020年12月3日

DA2: Deep Attention Adapter for Memory-EfficientOn-Device Multi-Domain Learning

DA2: Deep Attention Adapter for Memory-EfficientOn-Device Multi-Domain Learning

Arxiv

1+阅读 · 2020年12月2日

Persistent Reductions in Regularized Loss Minimization for Variable Selection

Arxiv

0+阅读 · 2020年11月30日

Functional Autoregressive Processes in Reproducing Kernel Hilbert Spaces

Arxiv

0+阅读 · 2020年11月27日

Optimization and Generalization Analysis of Transduction through Gradient Boosting and Application to Multi-scale Graph Neural Networks

Arxiv

6+阅读 · 2020年6月15日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员