Stochastic gradient descent (SGD) exhibits strong algorithmic regularization effects in practice, which has been hypothesized to play an important role in the generalization of modern machine learning approaches. In this work, we seek to understand these issues in the simpler setting of linear regression (including both underparameterized and overparameterized regimes), where our goal is to make sharp instance-based comparisons of the implicit regularization afforded by (unregularized) average SGD with the explicit regularization of ridge regression. For a broad class of least squares problem instances (that are natural in high-dimensional settings), we show: (1) for every problem instance and for every ridge parameter, (unregularized) SGD, when provided with logarithmically more samples than that provided to the ridge algorithm, generalizes no worse than the ridge solution (provided SGD uses a tuned constant stepsize); (2) conversely, there exist instances (in this wide problem class) where optimally-tuned ridge regression requires quadratically more samples than SGD in order to have the same generalization performance. Taken together, our results show that, up to the logarithmic factors, the generalization performance of SGD is always no worse than that of ridge regression in a wide range of overparameterized problems, and, in fact, could be much better for some problem instances. More generally, our results show how algorithmic regularization has important consequences even in simpler (overparameterized) convex settings.


翻译:在这项工作中,我们力求在更简单的线性回归(包括分度过低和过度分度制度)设置中理解这些问题,我们的目标是对(非常规)平均SGD提供的隐性回归(包括分度过低和过度分度制度)进行急剧的基于实例的比较,同时对脊脊回归进行明确的规范化。对于广义的平方问题案例(在高维环境中是自然的),我们展示:(1) 对于每个问题实例和每个脊脊参数,(非常规)SGD,当我们向线性回归(包括分度过低和超度偏度制度)提供比向峰性回归法提供的对数更多的样本时,我们力求理解这些问题。 (2) 反之,有些(在这种广泛的问题类别中),最佳调整的脊重回归需要比SGD多的样本,以便具有相同的概括性表现。 一起是,我们的结果甚至更糟糕的是,在更简单的正标性回归法方面,在更精确的精确性因素中,在更普遍的正标性回归中,在更精确的精确性因素中,在更差的回归中,在更难于更精确的精确的精确性因素中,在更甚于更深的回归性因素中,在总的精确性因素中,在更甚于更深的回归性因素中,在更甚于更深的回归性因素中,在更甚于更甚于更甚于更深地的精确性上。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
7+阅读 · 2018年8月28日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Arxiv
0+阅读 · 2021年10月6日
Arxiv
12+阅读 · 2021年3月24日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
相关资讯
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
7+阅读 · 2018年8月28日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Top
微信扫码咨询专知VIP会员