【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

2020 年 10 月 12 日 专知


Improved Analysis of Clipping Algorithms for Non-convex Optimization


梯度裁剪在深度神经网络训练中应用广泛,部分原因是其在解决梯度爆炸问题上的实用性。最近,Zhang等人[2020a]通过引入一个新的假设(L0, L1)-平滑性,证明剪切(随机)梯度下降(GD)比普通的GD/SGD收敛得更快,该假设表征了深度神经网络中通常遇到的梯度剧烈波动。然而,它们在问题相关参数上的迭代复杂性是相当悲观的,并且裁剪与其他关键技术(如动量加速)相结合的理论证明仍然缺乏。在本文中,我们提出了一个研究剪切算法的一般框架来弥补这一差距,该框架也考虑了动量法。我们提供了框架在确定性和随机设置的收敛性分析,并通过比较它们与现有的下界来证明我们的结果的紧密性。我们的结果表明,剪裁方法的效率不会退化,即使在景观的高度非光滑的区域。实验证明了基于裁剪的方法在深度学习任务中的优越性。


https://arxiv.org/abs/2010.02519


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CANO” 可以获取《【NeurIPS2020-北大】非凸优化裁剪算法的改进分析》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
19+阅读 · 2020年11月6日
[NeurIPS 2020]对图神经网络更实际的对抗式攻击
专知会员服务
8+阅读 · 2020年11月1日
专知会员服务
28+阅读 · 2020年10月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
专知会员服务
18+阅读 · 2020年9月11日
专知会员服务
19+阅读 · 2020年9月2日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
27+阅读 · 2020年4月6日
最新《图嵌入组合优化》综述论文,40页pdf
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
【ICML2020】小样本目标检测
专知
7+阅读 · 2020年6月2日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
Arxiv
0+阅读 · 2020年11月30日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关VIP内容
【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
19+阅读 · 2020年11月6日
[NeurIPS 2020]对图神经网络更实际的对抗式攻击
专知会员服务
8+阅读 · 2020年11月1日
专知会员服务
28+阅读 · 2020年10月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
专知会员服务
18+阅读 · 2020年9月11日
专知会员服务
19+阅读 · 2020年9月2日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
27+阅读 · 2020年4月6日
Top
微信扫码咨询专知VIP会员