李沐:漫谈在线学习:在线梯度下降

2017 年 11 月 5 日 全球人工智能

——免费加入AI技术专家社群>>

——免费加入AI高管投资者群>>

在线凸优化

回顾下上次聊的专家问题,在时刻专家的损失是,于是这个时刻Weighted Majority(WM)损失的期望是,是关于这个专家的损失的一个线性组合(因为权重关于的和为1,所以实际上是在一个simplex上)。将专家在时刻的损失看成是这个时候进来的数据点,于是我们便在这里使用了一个线性的损失函数。

虽然WM的理论在上个世纪完成了[Littlestone 94, Freund 99],将其理论拓展到一般的凸的函数还是在03年由Zinkevich完成的。当时Zinkevich还是CMU的学生,现在在Yahoo! Research。话说Yahoo! Research的learning相当强大,Alex Smola(kernel大佬),John Langford(有个非常著名的blog),这些年在large scale learning上工作很出色。

回到正题。我们提到在online learning中learner遭受的累计损失被记成,如果挑选的策略集是凸的,而且损失函数关于是凸的,那么我们称这个问题为Online Convex Optimization(OCP)。通常我们将表示成一个向量,例如WM中的维护的专家信任度,所以这时

在线梯度下降

Zinkevich提出的算法很简单,在时刻做两步操作,首先利用当前得到数据对进行一次梯度下降得到,如果新的不在中,那么将其投影进来:

这里关于的导数(如果导数不唯一,就用次导数),是学习率,是投影子,其将不在中的向量投影成一个与最近的但在中的向量(如果已经在中了,那就不做任何事),用公式表达就是。此算法通常被称之为 Online Gradient Descent。

先来啰嗦几句其与离线梯度下降的区别。下图是一个区别示意图。在离线的情况下,我们知道所有数据,所以能计算得到整个目标函数的梯度,从而能朝最优解迈出坚实的一步。而在online设定下,我们只根据当前的数据来计算一个梯度,其很可能与真实目标函数的梯度有一定的偏差。我们只是减少,而对别的项是否也是减少就难说了。当然,我们一直在朝目标前进,只是可能要走点弯路。

那online的优势在哪里呢?其关键是每走一步只需要看一下当前的一个数据,所以代价很小。而offline的算法每走一个要看下所有数据来算一个真实梯度,所以代价很大。假定有100个数据,offline走10步就到最优,而online要100步才能到。但这样offline需要看1000个数据,而online只要看100个数据,所以还是online代价小。

于是,我们很容易想到,offline的时候能不能每一步只随机抽几个数据点来算一个梯度呢?这样每一步代价就会很少,而且可能总代价会和online一样的少。当然可以!这被称之为Stochastic Gradient Descent,非常高效,下回再谈把。

在这里,的作用是什么呢?记得在learning中的目标函数通常是损失+罚()的形式。例如ridge regression就是平方误差+罚,lasso是平方误差+罚,SVM是hinge loss+罚。最小化这个目标函数可以等价于在的限制下最小化是一一对应的关系。实际上就是定义了一个凸子空间,例如使用罚,既,时就是一个半径为的球。所以,Online Gradient Descent可以online的解这一类目标函数,只是对于不同的罚要选择不同的投影子。

Regret Bound分析

记投影前的,以及offline最优解。因为是凸的且在其中,所以对投影只会减少其与的距离,既。简记,注意到

由于是凸的,所以有

取固定的,对进行累加就有。记的直径为,且对所有成立(既Lipschitz常数为),再取,那么 

这个bound可以通过设置变动的学习率加强,具体下次再谈咯。


热门文章推荐

黑科技|Adobe出图象技术神器!视频也可以PS了!!

厉害!旷视科技包揽 COCO、Places 三项世界冠军

Python的开源人脸识别库:离线识别率高达99.38%

全球研发开支排名:亚马逊第一,BATJ排不上号!

一篇文章讲清楚人工智能、机器学习和深度学习的区别和联系

黑科技|Adobe出图象技术神器!视频也可以PS了!!

史上第一个被授予公民身份的机器人索菲亚和人对答如流!

浙大90后女黑客在GeekPwn2017上秒破人脸识别系统!

周志华点评AlphaGo Zero:这6大特点非常值得注意!

汤晓鸥教授:人工智能让天下没有难吹的牛!

登录查看更多
3

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
118+阅读 · 2019年9月24日
面试题:Word2Vec中为什么使用负采样?
七月在线实验室
46+阅读 · 2019年5月16日
深度学习优化算法总结(SGD,AdaGrad,Adam等)
极市平台
33+阅读 · 2019年4月30日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
干货|深度神经网络(DNN)反向传播算法(BP)
全球人工智能
7+阅读 · 2018年1月12日
深度学习和普通机器学习之间有何区别?
36大数据
7+阅读 · 2017年12月4日
干货 | 深度学习之CNN反向传播算法详解
机器学习算法与Python学习
17+阅读 · 2017年11月21日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
7+阅读 · 2018年12月26日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
23+阅读 · 2018年8月3日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
4+阅读 · 2018年3月19日
VIP会员
相关资讯
面试题:Word2Vec中为什么使用负采样?
七月在线实验室
46+阅读 · 2019年5月16日
深度学习优化算法总结(SGD,AdaGrad,Adam等)
极市平台
33+阅读 · 2019年4月30日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
干货|深度神经网络(DNN)反向传播算法(BP)
全球人工智能
7+阅读 · 2018年1月12日
深度学习和普通机器学习之间有何区别?
36大数据
7+阅读 · 2017年12月4日
干货 | 深度学习之CNN反向传播算法详解
机器学习算法与Python学习
17+阅读 · 2017年11月21日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
相关论文
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
7+阅读 · 2018年12月26日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
23+阅读 · 2018年8月3日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
4+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员