A longstanding debate surrounds the related hypotheses that low-curvature minima generalize better, and that SGD discourages curvature. We offer a more complete and nuanced view in support of both. First, we show that curvature harms test performance through two new mechanisms, the shift-curvature and bias-curvature, in addition to a known parameter-covariance mechanism. The three curvature-mediated contributions to test performance are reparametrization-invariant although curvature is not. The shift in the shift-curvature is the line connecting train and test local minima, which differ due to dataset sampling or distribution shift. Although the shift is unknown at training time, the shift-curvature can still be mitigated by minimizing overall curvature. Second, we derive a new, explicit SGD steady-state distribution showing that SGD optimizes an effective potential related to but different from train loss, and that SGD noise mediates a trade-off between deep versus low-curvature regions of this effective potential. Third, combining our test performance analysis with the SGD steady state shows that for small SGD noise, the shift-curvature may be the most significant of the three mechanisms. Our experiments confirm the impact of shift-curvature on test loss, and further explore the relationship between SGD noise and curvature.
翻译:长期争论围绕的是相关的假设, 即低精度微缩缩图比较简单, 并且 SGD 不鼓励曲线。 我们用更完整和细微的视角来支持两者。 首先, 我们展示了曲线伤害测试性能的两种新机制: 除了已知的参数差异性能机制之外, 变化- 曲线和偏斜- 曲线, 以及已知的参数差异性能机制。 对测试性能的三种曲线媒介贡献是再平衡- 差异性能, 虽然曲流不是曲流。 转变是连接火车和测试本地微缩图的线, 但由于数据集抽样或分布的变化而有所不同。 首先, 虽然在培训时尚不为人所知, 但转变性能- 曲线性能测试性能测试性能的测试性能表现仍然可以通过尽量减少总体曲线性能来减轻。 第二, 我们推出一个新的、 明确的 SGD 稳性能稳定状态分布显示, SGD 优化 和 3 测试性能性能的测试性能变化, 显示我们测试性能 性能 性能 的测试性能 性能 性能 性能 性能 性能 性能 性能 的 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能