The bias-variance trade-off is a central concept in supervised learning. In classical statistics, increasing the complexity of a model (e.g., number of parameters) reduces bias but also increases variance. Until recently, it was commonly believed that optimal performance is achieved at intermediate model complexities which strike a balance between bias and variance. Modern Deep Learning methods flout this dogma, achieving state-of-the-art performance using "over-parameterized models" where the number of fit parameters is large enough to perfectly fit the training data. As a result, understanding bias and variance in over-parameterized models has emerged as a fundamental problem in machine learning. Here, we use methods from statistical physics to derive analytic expressions for bias and variance in two minimal models of over-parameterization (linear regression and two-layer neural networks with nonlinear data distributions), allowing us to disentangle properties stemming from the model architecture and random sampling of data. In both models, increasing the number of fit parameters leads to a phase transition where the training error goes to zero and the test error diverges as a result of the variance (while the bias remains finite). Beyond this threshold, the test error of the two-layer neural network decreases due to a monotonic decrease in \emph{both} the bias and variance in contrast with the classical bias-variance trade-off. We also show that in contrast with classical intuition, over-parameterized models can overfit even in the absence of noise and exhibit bias even if the student and teacher models match. We synthesize these results to construct a holistic understanding of generalization error and the bias-variance trade-off in over-parameterized models and relate our results to random matrix theory.
翻译:偏差权衡是监督学习中的核心概念。 在古典统计中, 日益复杂的模型( 例如参数数量) 减少了偏差, 但也增加了差异。 直到最近, 人们通常认为, 在中间模型复杂度中, 达到最佳性能, 从而平衡偏差和差异。 现代深层学习方法藐视了这个教条, 使用“ 超分化模型” 实现最先进的性能, 使用“ 超分化模型”, 匹配参数的数量足以完全符合培训数据。 因此, 在古典统计中, 超比值模型的偏差和差异, 成为机器学习的根本问题。 在这里, 我们使用统计物理的方法, 得出偏差和偏差的偏差, 在两种最低的参数中( 线性回归和两层神经神经系统网络) 得出偏差和偏差的偏差, 使得我们从模型结构和随机抽样中分解的特性。 在这两种模型中, 匹配参数的数量增加导致一个阶段的转变,, 校正型模型的偏差结果为零, 测试错误因差异而出现偏差 。 。 校正型 校正型 校际 校正 校际 校际 校际 校正 校正 校正 校正 校正 校正 校正 校 校 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校 校 校 校 校正 校正 校正 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校 校