Understanding the generalization capability of learning algorithms is at the heart of statistical learning theory. In this paper, we investigate the generalization gap of stochastic gradient Langevin dynamics (SGLD), a widely used optimizer for training deep neural networks (DNNs). We derive an algorithm-dependent generalization bound by analyzing SGLD through an information-theoretic lens. Our analysis reveals an intricate trade-off between learning and information dissipation: SGLD learns from data by updating parameters at each iteration while dissipating information from early training stages. Our bound also involves the variance of gradients which captures a particular kind of "sharpness" of the loss landscape. The main proof techniques in this paper rely on strong data processing inequalities -- a fundamental concept in information theory -- and Otto-Villani's HWI inequality. Finally, we demonstrate our bound through numerical experiments, showing that it can predict the behavior of the true generalization gap.
翻译:理解学习算法的普及能力是统计学习理论的核心。 在本文中, 我们调查了随机梯度Langevin动态(SGLD)的普及差距, 这是用于培训深层神经网络(DNNS)的一个广泛使用的优化器。 我们通过信息理论透镜分析SGLD, 得出了一个依赖算法的概括。 我们的分析揭示了学习与信息消散之间的复杂权衡: SGLD通过更新每次迭代的参数从数据中学习,同时从早期培训阶段中消散信息。 我们的界限还涉及梯度的差异, 它捕捉了损失场面的某种特殊的“ 亮度 ” 。 本文的主要证明技术依赖于强大的数据处理不平等 -- -- 信息理论中的一个基本概念 -- 以及Ot- Villani HWI 的不平等。 最后, 我们通过数字实验展示了我们的界限, 表明它能够预测真正的普遍性差距的行为。