We propose a novel approach to analyze generalization error for discretizations of Langevin diffusion, such as the stochastic gradient Langevin dynamics (SGLD). For an $\epsilon$ tolerance of expected generalization error, it is known that a first order discretization can reach this target if we run $\Omega(\epsilon^{-1} \log (\epsilon^{-1}) )$ iterations with $\Omega(\epsilon^{-1})$ samples. In this article, we show that with additional smoothness assumptions, even first order methods can achieve arbitrarily runtime complexity. More precisely, for each $N>0$, we provide a sufficient smoothness condition on the loss function such that a first order discretization can reach $\epsilon$ expected generalization error given $\Omega( \epsilon^{-1/N} \log (\epsilon^{-1}) )$ iterations with $\Omega(\epsilon^{-1})$ samples.


翻译:我们提出一种新的方法来分析朗埃文扩散的离散性差错,例如Stochistic 梯度Langevin动态(SGLD)等。对于预期普遍化差错的容度,我们知道,如果我们用$Omega(\epsilon ⁇ -1}\log(\epsilon ⁇ -1})来运行以$Omega(\epsilon ⁇ -1})为样本的折叠性差错,则第一级离散性就能够达到这个目标。在文章中,我们表明,如果增加顺畅性假设,即使第一级方法也能实现任意运行时间的复杂性。更确切地说,对于每1美元,我们为损失函数提供了足够的顺畅性条件,以便第一级离异性能达到美元预期的普遍差错,给$Omega(\epsilon ⁇ -1}(\epsilon ⁇ -1}(\\\ ipsilon ⁇ -1})。

0
下载
关闭预览

相关内容

学习方法的泛化能力(Generalization Error)是由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的办法是通过测试泛化误差来评价学习方法的泛化能力。泛化误差界刻画了学习算法的经验风险与期望风险之间偏差和收敛速度。一个机器学习的泛化误差(Generalization Error),是一个描述学生机器在从样品数据中学习之后,离教师机器之间的差距的函数。
专知会员服务
50+阅读 · 2020年12月14日
【EMNLP2020】序列知识蒸馏进展,44页ppt
专知会员服务
38+阅读 · 2020年11月21日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
161+阅读 · 2020年1月16日
已删除
将门创投
8+阅读 · 2019年3月18日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Self-Healing First-Order Distributed Optimization
Arxiv
0+阅读 · 2021年4月5日
Arxiv
0+阅读 · 2021年4月2日
VIP会员
相关资讯
已删除
将门创投
8+阅读 · 2019年3月18日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员