我们提出并分析了一种基于动量的梯度方法,用于训练具有指数尾损失(例如,指数或logistic损失)的线性分类器,它以O (1/t2)的速率最大化可分离数据的分类边缘。这与标准梯度下降的速率O(1/log(t))和标准化梯度下降的速率O(1/t)形成对比。这种基于动量的方法是通过最大边际问题的凸对偶,特别是通过将Nesterov加速度应用于这种对偶,从而在原函数中得到了一种简单而直观的方法。这种对偶观点也可以用来推导随机变量,通过对偶变量进行自适应非均匀抽样。
https://www.zhuanzhi.ai/paper/9fd848dc95d2b0a9a5da37dbbd79d4ed