Virtually all state-of-the-art methods for training supervised machine learning models are variants of SGD enhanced with a number of additional tricks, such as minibatching, momentum, and adaptive stepsizes. One of the tricks that works so well in practice that it is used as default in virtually all widely used machine learning software is {\em random reshuffling (RR)}. However, the practical benefits of RR have until very recently been eluding attempts at being satisfactorily explained using theory. Motivated by recent development due to Mishchenko, Khaled and Richt\'{a}rik (2020), in this work we provide the first analysis of SVRG under Random Reshuffling (RR-SVRG) for general finite-sum problems. First, we show that RR-SVRG converges linearly with the rate $\mathcal{O}(\kappa^{3/2})$ in the strongly-convex case, and can be improved further to $\mathcal{O}(\kappa)$ in the big data regime (when $n > \mathcal{O}(\kappa)$), where $\kappa$ is the condition number. This improves upon the previous best rate $\mathcal{O}(\kappa^2)$ known for a variance reduced RR method in the strongly-convex case due to Ying, Yuan and Sayed (2020). Second, we obtain the first sublinear rate for general convex problems. Third, we establish similar fast rates for Cyclic-SVRG and Shuffle-Once-SVRG. Finally, we develop and analyze a more general variance reduction scheme for RR, which allows for less frequent updates of the control variate. We corroborate our theoretical results with suitably chosen experiments on synthetic and real datasets.


翻译:几乎所有最先进的培训受监督的机器学习模式都几乎都是SGD的变体,这些变体通过一些额外的技巧,例如微型连接、动力和适应步骤等,来提升SGD的变体。在实际操作中非常有效,几乎所有广泛使用的机器学习软件都使用它作为默认值。然而,直到最近为止,RR的实际好处一直无法用理论来令人满意地解释。由于Mishchenko、Khaled和Richt\\{a}rik(202020)的最近发展,在这项工作中,我们首次分析了在随机校正(RRRR-SVRG)下的SVRRR(R-SVRG),用来解决一般限值问题。首先,RRRR-SRR(Ka) 与 $mathc(Ox) 常规变异变率(RRRR) 相比,可以更精确的变数(W) 更精确的变数(Ox) 。

0
下载
关闭预览

相关内容

《多任务学习》最新综述论文,20页pdf
专知会员服务
121+阅读 · 2021年4月6日
AAAI 2021论文接收列表放出! 1692篇论文都在这儿了!
专知会员服务
72+阅读 · 2021年1月3日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
52+阅读 · 2020年9月7日
专知会员服务
61+阅读 · 2020年3月4日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
《多任务学习》最新综述论文,20页pdf
专知会员服务
121+阅读 · 2021年4月6日
AAAI 2021论文接收列表放出! 1692篇论文都在这儿了!
专知会员服务
72+阅读 · 2021年1月3日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
52+阅读 · 2020年9月7日
专知会员服务
61+阅读 · 2020年3月4日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员