如何评价论文「Stochastic Training is Not Necessary ...」?

论文" Stochastic Training is Not Necessary for Generalization "为ICLR 2022的投稿,…
关注者
396
被浏览
106,381
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

研一时做最优化大作业的时候比较过GD,SGD还有mini-batch GD的性能和研究过它们的历史,SGD是由Herbert Robins于上世纪50年代提出的,提出是为了解决大规模机器学习优化的问题。因为当训练集太大时GD是计算量非常大的。我记得Herbert Robbins那篇文章证明了SGD是具有大范围收敛性的(具体结论我有点忘了),也就是说SGD只有收敛性的保证,并没有泛化性能优于GD的保证。

我猜后面这个SGD泛化性能优于GD结论也没有被证明,因为非凸的优化误差真的是很难的问题。可能SGD泛化优于GD结论是深度学习学界一个比较大的误解?我之前也是这么认为的,但实际上应该没有理论保证。

但从算法效率来说的话,还是SGD,mini-batch GD效果更好,因为更省一次迭代的计算资源。