我们提出并分析了一种基于动量的梯度方法,用于训练具有指数尾损失(例如,指数或logistic损失)的线性分类器,它以O (1/t2)的速率最大化可分离数据的分类边缘。这与标准梯度下降的速率O(1/log(t))和标准化梯度下降的速率O(1/t)形成对比。这种基于动量的方法是通过最大边际问题的凸对偶,特别是通过将Nesterov加速度应用于这种对偶,从而在原函数中得到了一种简单而直观的方法。这种对偶观点也可以用来推导随机变量,通过对偶变量进行自适应非均匀抽样。

https://www.zhuanzhi.ai/paper/9fd848dc95d2b0a9a5da37dbbd79d4ed

成为VIP会员查看完整内容
8
0

相关内容

最优化是应用数学的一个分支,主要指在一定条件限制下,选取某种研究方案使目标达到最优的一种方法。最优化问题在当今的军事、工程、管理等领域有着极其广泛的应用。
专知会员服务
15+阅读 · 2021年8月24日
专知会员服务
34+阅读 · 2021年8月20日
专知会员服务
12+阅读 · 2021年8月6日
专知会员服务
27+阅读 · 2021年7月19日
专知会员服务
31+阅读 · 2021年7月17日
专知会员服务
23+阅读 · 2021年5月18日
专知会员服务
72+阅读 · 2021年5月10日
专知会员服务
10+阅读 · 2021年3月13日
互信息及其在图表示学习的应用
AINLP
3+阅读 · 2020年6月21日
详解常见的损失函数
七月在线实验室
17+阅读 · 2018年7月12日
无问西东,只问哈希
线性资本
3+阅读 · 2018年1月18日
深度 | 结合Logistic回归构建最大熵马尔科夫模型
机器之心
3+阅读 · 2017年11月25日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
13+阅读 · 2017年9月18日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
EKF常用于目标跟踪系统的扩展卡尔曼滤波器
无人机
9+阅读 · 2017年7月25日
Arxiv
0+阅读 · 2021年9月1日
Arxiv
4+阅读 · 2021年7月1日
Frustratingly Simple Few-Shot Object Detection
Arxiv
3+阅读 · 2020年3月16日
小贴士
相关VIP内容
专知会员服务
15+阅读 · 2021年8月24日
专知会员服务
34+阅读 · 2021年8月20日
专知会员服务
12+阅读 · 2021年8月6日
专知会员服务
27+阅读 · 2021年7月19日
专知会员服务
31+阅读 · 2021年7月17日
专知会员服务
23+阅读 · 2021年5月18日
专知会员服务
72+阅读 · 2021年5月10日
专知会员服务
10+阅读 · 2021年3月13日
相关资讯
互信息及其在图表示学习的应用
AINLP
3+阅读 · 2020年6月21日
详解常见的损失函数
七月在线实验室
17+阅读 · 2018年7月12日
无问西东,只问哈希
线性资本
3+阅读 · 2018年1月18日
深度 | 结合Logistic回归构建最大熵马尔科夫模型
机器之心
3+阅读 · 2017年11月25日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
13+阅读 · 2017年9月18日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
EKF常用于目标跟踪系统的扩展卡尔曼滤波器
无人机
9+阅读 · 2017年7月25日
微信扫码咨询专知VIP会员