We study here a fixed mini-batch gradient decent (FMGD) algorithm to solve optimization problems with massive datasets. In FMGD, the whole sample is split into multiple non-overlapping partitions. Once the partitions are formed, they are then fixed throughout the rest of the algorithm. For convenience, we refer to the fixed partitions as fixed mini-batches. Then for each computation iteration, the gradients are sequentially calculated on each fixed mini-batch. Because the size of fixed mini-batches is typically much smaller than the whole sample size, it can be easily computed. This leads to much reduced computation cost for each computational iteration. It makes FMGD computationally efficient and practically more feasible. To demonstrate the theoretical properties of FMGD, we start with a linear regression model with a constant learning rate. We study its numerical convergence and statistical efficiency properties. We find that sufficiently small learning rates are necessarily required for both numerical convergence and statistical efficiency. Nevertheless, an extremely small learning rate might lead to painfully slow numerical convergence. To solve the problem, a diminishing learning rate scheduling strategy can be used. This leads to the FMGD estimator with faster numerical convergence and better statistical efficiency. Finally, the FMGD algorithms with random shuffling and a general loss function are also studied.


翻译:我们研究了一种用于求解大规模数据集优化问题的固定小批量梯度下降(FMGD)算法。在FMGD中,整个样本被分成多个非重叠分区。一旦分区形成,它们就在算法的其余部分中固定。为方便起见,我们将固定分区称为固定小批量。然后,对于每个计算迭代,渐变会在每个固定小批量上依次被计算。由于固定小批量的大小通常比整个样本大小小得多,因此它可以很容易地计算。这导致FMGD在计算上更加高效,实际上更加可行。为了证明FMGD的理论性质,我们从一个带有固定学习率的线性回归模型开始。我们研究其数值收敛和统计效率属性,发现数值收敛和统计效率都必须具有足够小的学习率。然而,学习率过于小可能会导致极慢的数值收敛。为了解决这个问题,可以使用递减学习速率调度策略。这导致了FMGD估计量的更快数值收敛和更好的统计效率。最后,我们还研究了具有随机洗牌和一般损失函数的FMGD算法。

0
下载
关闭预览

相关内容

【2023新书】随机模型基础,815页pdf
专知会员服务
97+阅读 · 2023年5月10日
【干货书】工程和科学中的概率和统计,
专知会员服务
57+阅读 · 2022年12月24日
【硬核书】矩阵代数基础,248页pdf
专知会员服务
81+阅读 · 2021年12月9日
专知会员服务
76+阅读 · 2021年10月12日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
174+阅读 · 2020年6月3日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
一些关于随机矩阵的算法
PaperWeekly
1+阅读 · 2022年7月13日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2023年5月26日
VIP会员
相关VIP内容
【2023新书】随机模型基础,815页pdf
专知会员服务
97+阅读 · 2023年5月10日
【干货书】工程和科学中的概率和统计,
专知会员服务
57+阅读 · 2022年12月24日
【硬核书】矩阵代数基础,248页pdf
专知会员服务
81+阅读 · 2021年12月9日
专知会员服务
76+阅读 · 2021年10月12日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
174+阅读 · 2020年6月3日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员