如何评价论文「Stochastic Training is Not Necessary ...」?

Question

如何评价论文「Stochastic Training is Not Necessary ...」?

论文" Stochastic Training is Not Necessary for Generalization "为ICLR 2022的投稿，…

关注者

396

被浏览

106,381

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 6 个回答

研一时做最优化大作业的时候比较过GD，SGD还有mini-batch GD的性能和研究过它们的历史，SGD是由Herbert Robins于上世纪50年代提出的，提出是为了解决大规模机器学习优化的问题。因为当训练集太大时GD是计算量非常大的。我记得Herbert Robbins那篇文章证明了SGD是具有大范围收敛性的（具体结论我有点忘了），也就是说SGD只有收敛性的保证，并没有泛化性能优于GD的保证。

我猜后面这个SGD泛化性能优于GD结论也没有被证明，因为非凸的优化误差真的是很难的问题。可能SGD泛化优于GD结论是深度学习学界一个比较大的误解？我之前也是这么认为的，但实际上应该没有理论保证。

但从算法效率来说的话，还是SGD，mini-batch GD效果更好，因为更省一次迭代的计算资源。

发布于 2021-10-25 20:51

查看全部 6 个回答