The generalization performance of a machine learning algorithm such as a neural network depends in a non-trivial way on the structure of the data distribution. To analyze the influence of data structure on test loss dynamics, we study an exactly solveable model of stochastic gradient descent (SGD) on mean square loss which predicts test loss when training on features with arbitrary covariance structure. We solve the theory exactly for both Gaussian features and arbitrary features and we show that the simpler Gaussian model accurately predicts test loss of nonlinear random-feature models and deep neural networks trained with SGD on real datasets such as MNIST and CIFAR-10. We show that the optimal batch size at a fixed compute budget is typically small and depends on the feature correlation structure, demonstrating the computational benefits of SGD with small batch sizes. Lastly, we extend our theory to the more usual setting of stochastic gradient descent on a fixed subsampled training set, showing that both training and test error can be accurately predicted in our framework on real data.


翻译:神经网络等机器学习算法的普遍性能取决于数据分布结构的非边际方式。为了分析数据结构对测试损失动态的影响,我们研究了一种完全可以解决的关于平均平方损失的随机梯度梯度下降模型(SGD),该模型预测在培训具有任意共变结构的特征时会测试损失。我们准确地为高萨特征和任意特征解决了理论问题,并且我们表明,较简单的高斯模型准确地预测了非线性随机性能模型和由SGD培训的关于诸如MNIST和CIFAR-10等真实数据集的深线性神经网络的测试损失。我们表明,固定计算预算的最佳批量规模一般为小,取决于特征相关结构,展示了SGD小批量的计算效益。最后,我们将我们的理论扩大到固定的子抽样培训集中更常见的随机梯度梯度梯度下降设置,表明在实际数据框架中可以准确预测培训和测试错误。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
44+阅读 · 2020年10月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Nature 一周论文导读 | 2019 年 6 月 27 日
科研圈
8+阅读 · 2019年7月7日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
64+阅读 · 2021年6月18日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关VIP内容
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Nature 一周论文导读 | 2019 年 6 月 27 日
科研圈
8+阅读 · 2019年7月7日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
64+阅读 · 2021年6月18日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
7+阅读 · 2018年6月8日
Top
微信扫码咨询专知VIP会员