Viewing neural network models in terms of their loss landscapes has a long history in the statistical mechanics approach to learning, and in recent years it has received attention within machine learning proper. Among other things, local metrics (such as the smoothness of the loss landscape) have been shown to correlate with global properties of the model (such as good generalization). Here, we perform a detailed empirical analysis of the loss landscape structure of thousands of neural network models, systematically varying learning tasks, model architectures, and/or quantity/quality of data. By considering a range of metrics that attempt to capture different aspects of the loss landscape, we demonstrate that the best test accuracy is obtained when: the loss landscape is globally well-connected; ensembles of trained models are more similar to each other; and models converge to locally smooth regions. We also show that globally poorly-connected landscapes can arise when models are small or when they are trained to lower quality data; and that, if the loss landscape is globally poorly-connected, then training to zero loss can actually lead to worse test accuracy. Based on these results, we develop a simple one-dimensional model with load-like and temperature-like parameters, we introduce the notion of an \emph{effective loss landscape} depending on these parameters, and we interpret our results in terms of a \emph{rugged convexity} of the loss landscape. When viewed through this lens, our detailed empirical results shed light on phases of learning (and consequent double descent behavior), fundamental versus incidental determinants of good generalization, the role of load-like and temperature-like parameters in the learning process, different influences on the loss landscape from model and data, and the relationships between local and global metrics, all topics of recent interest.
翻译:将神经网络模型从其损失的地貌来看,在统计结构学方法方面,其历史悠久。近年来,在机器学习的正常阶段里,它一直受到关注。 除其他外,地方度量(如损失地貌的平滑)已经显示与模型的全球特性(如良好的概括化)相关。 在这里,我们对数千个神经网络模型的损失地貌结构进行了详细的实证分析,系统不同的学习任务、模型结构以及/或数据的数量/质量。通过考虑一系列试图捕捉损失地貌不同方面的指标,我们证明在机器学习过程中获得了最佳的测试准确性:损失地貌与全球密切相关;经过训练的模型的组合更加相似;模型与当地平滑动区域相近。 我们还表明,当模型规模小或当它们被训练为低质量数据时,全球范围内的地貌景观结构结构结构结构会不相干;如果损失地貌模式在全球范围不相干,那么,培训到零损失实际上可以导致更差的测试准确性。 根据这些结果,我们开发了一个简单的一维模型,我们从测测算的地平价值 和测算结果,我们测测算了这些测算的模型, 的 的 测算成本和测测测测算结果 的 的 的 测算了我们测算 测算 测算的 测算的 和测算 测算的 测算的 测算的 测算的 测算 测算 的 的 的 的 的 的 的 的 的 测算的 测算 的 测算的 测算 测算 测算的 测算的 测算的 的 的 测算的 测算 的 的 的 测算的 的 的 的 的 测算 测算 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的