Stochastic gradient descent (SGD) is a popular algorithm for optimization problems arising in high-dimensional inference tasks. Here one produces an estimator of an unknown parameter from independent samples of data by iteratively optimizing a loss function. This loss function is random and often non-convex. We study the performance of the simplest version of SGD, namely online SGD, from a random start in the setting where the parameter space is high-dimensional. We develop nearly sharp thresholds for the number of samples needed for consistent estimation as one varies the dimension. Our thresholds depend only on an intrinsic property of the population loss which we call the information exponent. In particular, our results do not assume uniform control on the loss itself, such as convexity or uniform derivative bounds. The thresholds we obtain are polynomial in the dimension and the precise exponent depends explicitly on the information exponent. As a consequence of our results, we find that except for the simplest tasks, almost all of the data is used simply in the initial search phase to obtain non-trivial correlation with the ground truth. Upon attaining non-trivial correlation, the descent is rapid and exhibits law of large numbers type behavior. We illustrate our approach by applying it to a wide set of inference tasks such as phase retrieval, and parameter estimation for generalized linear models, online PCA, and spiked tensor models, as well as to supervised learning for single-layer networks with general activation functions.


翻译:测深梯度底部( SGD) 是一种在高维推论任务中产生的优化问题流行的算法。 在这里, 我们只能从独立的数据样本中通过迭代优化损失功能来估算一个未知参数。 这个损失函数是随机的, 通常是非碳化的。 我们从参数空间高的环境下随机开始研究SGD的最简单版本的性能, 即在线 SGD 的性能。 我们发现, 除了最简单的任务之外, 我们的数据几乎全部都仅仅用于初始搜索阶段, 以获得人口损失与地面真相的非三重关联, 我们称之为信息源头。 特别是, 我们的结果并不对损失本身进行统一的控制, 例如 共性或统一的衍生界限。 我们获得的阈值是随机的, 而准确的直线性取决于信息。 我们的结果是, 除了最简单的任务之外, 我们几乎所有的数据都仅仅用于初始搜索阶段, 以获得与地面真相的非三重的关联性关系。 在达到非三重的模型中, 我们获得的直线性模型, 我们的直系的直线性模型, 以直系的直系的直系的直系函数, 通过直系的直系的直系的直系的直系的直系模型, 以直系的直系的直系的直系, 直系的直系的直系, 的直系的直系, 直系的直系的直系的直系的直系, 直系的直系, 直系, 直系的直系的直系的直系的直系的直系, 的直系, 直系, 直系的直系, 以直系的直系的直系的直系, 以直系的直系的直系的直系, 的直系的直系的直系的直系的直系的直系, 的直系, 以直系, 直系, 直系, 直系, 直系的直系为直系的直系的直系的直系为直系的直系的直系, 直系的直系的直系的直系的直系的直系的直系的直系的直系的直系的直系, 依。

0
下载
关闭预览

相关内容

随机梯度下降,按照数据生成分布抽取m个样本,通过计算他们梯度的平均值来更新梯度。
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
52+阅读 · 2020年9月7日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
专知会员服务
60+阅读 · 2020年3月19日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月24日
Policy choice in experiments with unknown interference
Arxiv
0+阅读 · 2021年6月22日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员