Thanks to their practical efficiency and random nature of the data, stochastic first-order methods are standard for training large-scale machine learning models. Random behavior may cause a particular run of an algorithm to result in a highly suboptimal objective value, whereas theoretical guarantees are usually proved for the expectation of the objective value. Thus, it is essential to theoretically guarantee that algorithms provide small objective residual with high probability. Existing methods for non-smooth stochastic convex optimization have complexity bounds with the dependence on the confidence level that is either negative-power or logarithmic but under an additional assumption of sub-Gaussian (light-tailed) noise distribution that may not hold in practice, e.g., in several NLP tasks. In our paper, we resolve this issue and derive the first high-probability convergence results with logarithmic dependence on the confidence level for non-smooth convex stochastic optimization problems with non-sub-Gaussian (heavy-tailed) noise. To derive our results, we propose novel stepsize rules for two stochastic methods with gradient clipping. Moreover, our analysis works for generalized smooth objectives with H\"older-continuous gradients, and for both methods, we provide an extension for strongly convex problems. Finally, our results imply that the first (accelerated) method we consider also has optimal iteration and oracle complexity in all the regimes, and the second one is optimal in the non-smooth setting.


翻译:由于数据的实际效率和随机性,随机第一阶方法是用于培训大型机器学习模型的标准。随机行为可能导致某种特定的算法运行,导致高度低于最优化的目标值,而理论保障通常被证明符合对目标值的期望。因此,在理论上保证算法提供少量客观剩余概率很高的数值至关重要。现有的非超超慢孔心优化方法具有复杂性,取决于信任度水平,这种信任度要么是负电量,要么是对数,但又假设是亚加西(浅尾)噪声分布在实践中可能无法维持的。在我们的论文中,我们解决这个问题并得出第一个高度概率趋同的结果,对非超低调的锥心线优化的可信度水平的依赖度有一定的限度。为了得出我们的结果,我们首先提出非新阶梯度规则,对于两种最优的梯度方法来说,我们两个最优级的阶梯度方法,最后的阶梯度分析都是我们最优的。

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年7月24日
专知会员服务
50+阅读 · 2020年12月14日
【斯坦福CS330】终身学习: 问题陈述,前后迁移,30页ppt
专知会员服务
25+阅读 · 2020年12月13日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
7+阅读 · 2018年4月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月6日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年7月24日
专知会员服务
50+阅读 · 2020年12月14日
【斯坦福CS330】终身学习: 问题陈述,前后迁移,30页ppt
专知会员服务
25+阅读 · 2020年12月13日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
7+阅读 · 2018年4月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员