点击上方蓝字
关注我们
今天,FCS给大家分享一篇人工智能专栏论文(作者清华大学朱军老师等)——《Dropout training for SVMs with data augmentation(利用数据增强技术针对SVM进行dropout训练)》的阅读笔记,由我们的读者提供。
如果您也同样对这篇论文感兴趣,或者也想把您阅读我们期刊论文的感受分享给更多的小伙伴,欢迎在文后留言或者与我们联系。
原文信息:
Dropout training for SVMs with data augmentation
Frontiers of Computer Science,2018,12(4):694-713
Ning CHEN, Jun ZHU, Jianfei CHEN, Ting CHEN
长按识别二维码,阅读文章详情
01
简介
通过在给定训练样本的基础上增加一个固定的噪声分布,可以为有限的训练数据增加大量的损坏样本。在众多噪声机制中,dropout训练的效果十分显著。尽管对于二次损失、指数损失和从广义线性模型(GLM)中推导出来的对数损失已经有了很多研究,但是对于支持向量机(SVM)上的铰链损失的研究却很少。一个技术难题就是铰链损失的非平滑性使得计算甚至是估计它在一个给定损坏分布下的期望变得十分困难。本文试图解决这个难题并且通过拓展dropout训练和其他对于SVM的特征噪声机制来填补这一空隙。
02
背景知识
2.1 正则化损失最小化
考虑二分类问题,其中每一个训练数据(x,y)都包含一个输入特征向量
和一个二分类标签y∈{+1,-1}。给定一个训练集,监督学习致力于找到一个函数f∈F,将每一个输入都映射到一个标签。令R(D;f)为在该数据集中使用f的经验风险,为了找到一个最优的f,通常需要求解一个正则化损失最小化问题。
其中Ω(f)是一个正则项用来防止过拟合,c是一个非负参数。
对于线性模型而言,函数f可以简单地用参数表示为,其中w是权重向量,b是偏移量。为了简洁我们表示为θ≜{w,b}。正则项可以是任意欧几里得范式,例如范式,,或者范式,。对于损失函数,最常见的评价标准就是训练误差,然而却并不容易用来优化。因此我们使用一个凸的损失函数来代替,它的上界就是训练误差。两个常用的例子就是铰链损失和逻辑损失:
其中是要求的边缘,是逻辑似然函数。其他损失包括二次损失和指数损失,它们的特征噪声分析相对来说比较简单。
2.2 边缘化损坏学习
令为输入特征的损坏版本。考虑最常用的独立损坏模型
其中每个独立分布都是指数家族中的一员,自然参数是。另一个常用假设是损坏分布是无偏的,即。
对于显式损坏,每一个数据都从损坏模型中损坏了M次,形成了损坏样本,将这些损坏样本放在一起,我们就得到了一个损坏样本集,大小为。然后,我们就可以在生成的数据集上通过最小化个损坏数据点上的平均损失函数来训练模型了:
其中是在训练样本上的损失函数。由于的规模和损坏观察值的数量呈线性关系,当变得非常大时,这种方法可能会导致计算的成本非常高。
dropout训练则采用了隐式损坏的策略,通过最小化损坏分布下的损失函数的期望,利用边缘化损坏特征来训练模型。
这一目标可以看作是式(2)当趋向于无穷时的一个限制情况。
在式(3)中损失函数R的选择会显著地影响计算成本和预测的准确度。对于二次损失、指数损失、逻辑损失和从GLM中推导出来的对数损失都有了一系列研究。对于二次损失和指数损失,式(3)中的期望可以解析算出,使用简单的梯度下降算法。然而,对于计算逻辑损失和GLM对数损失的期望而言,还没有一个闭合解。之前的研究已经采取了近似方法,例如使用二阶泰勒展开或者通过使用Jensen不等式得到一个上界,这两种方法都在实践过程中产生了一个很有效的算法。与此相对的是,对于铰链损失却少有研究。我们通过下面阐述的有效算法来填补研究领域的这一空白。
03
dropout SVM
在这一部分中,我们在分类和回归两方面展示了线性SVM和利用表征学习的非线性拓展的dropout训练。
3.1 有损坏噪声的线性SVM
对于线性SVM而言,期望的铰链损失可以被写为如下形式:
其中我们定义。根据正则化损失最小化的框架,我们定义使用边缘化损坏特征SVM的优化问题为
下面,我们使用一个简单的迭代重加权最小二乘(IRLS)算法来解决这个问题,包括一个期望损失的变分边界和一个可以迭代地最小化重加权二次损失期望的算法。
3.1.1 使用数据增强的变分边界
由于我们没有对于最大值函数期望的一个闭合解,直接求解式(5)非常困难。因此,我们采用了变分分析的一般框架,并且根据利用了数据增强技术的铰链损失推导出变分上界。具体来说,令是对于样本的因变量的非标准化的伪似然,那么我们有
通过使用数据增强技术,我们可以将伪似然性表示为
其中是和数据n有关的增强变量。利用式(7)和Jensen不等式,我们可以生成一个期望铰链损失乘以因子2c(也就是)的变分上界:
其中,是变分分布的熵,是一个常量;并且我们定义来表示变分分布q的期望。现在我们的变分优化问题变成了:
3.1.2 迭代重加权最小二乘算法
在该上界中,我们注意到对于给定变分分布,是一个二次损失的期望,可以解析地计算出。我们利用这个属性提出了一种坐标下降算法来解决式(9)中的问题。我们的算法迭代地解决下面两个步骤,和变分EM算法的一般过程类似。
对于当参数θ给定时,这一步推导出变分分布。更进一步,我们在的基础上优化,我们得到,并且每一项为
其中二阶期望为
并且是一个维的对角矩阵,第d个对角元素为在损坏分布下的方差。我们令作为一个广义逆高斯分布。因此,符合一个逆高斯分布
对于通过固定并且移除无关项,这一子步骤最小化下面的目标:
其中。我们注意到这一子步骤相当于是最小化一个重加权二次损失的期望。
总而言之,我们的算法在给定的损坏分布下迭代地最小化一个简单重加权二次损失的期望,其中权重可以通过解析的方式算出。这是针对于dropout训练的IRLS算法的一个拓展。
3.2 使用表征学习的dropout SVM
上面我们假设对于输入特征而言分类器是一个线性模型,现在我们通过学习一种非线性特征来放松这一假设,这种方法在表征学习中十分常见。
利用一个维的矩阵,我们令表示为D维输入特征的一个K维非线性转化。例如我们可以定义逻辑转化,每个元素K为
其中是的第列。然后我们定义线性判别函数为
其中是分类器权重向量。我们仍令。那么我们就得到了和式(4)相同的期望铰链损失。
使用同样的数据增强技术,我们可以得到一个像式(8)一样的期望铰链损失的变分上界,同样是使用新定义的。然而,需要注意的是变分上界也是的一个函数,在实际处理起来很困难。这里我们使用的泰勒展开来得到一个近似值。具体来讲,我们有
其中是在出的一阶泰勒展开,它是一个D×K维的矩阵,每一项为。是损坏特征的均值。对于无偏噪声,。
利用一阶泰勒展开,我们可以计算变分上界,然后将上面算法做一点小改动就可以得到一个针对这个问题的最小化算法。
3.3 针对回归问题的dropout SVMs
我们简单地讨论如何将以上思想拓展到回归任务中,其中因变量Y取实数值。在回归问题中,一个对于支持向量回归(SVR)模型常用的损失为不敏感损失:
其中是真值和模型预测值之间的差值,ε是一个提前定义的正值。对于dropout训练,我们考虑期望损失。由于该式难以计算,我们利用数据增强技术提出了一个类似的IRLS算法来解决这个问题。
04
dropout逻辑回归
在这一部分,我们针对逻辑回归和它在分类问题上利用隐特征的拓展使用dropout训练提出了一个新的IRLS算法。这可以让我们对逻辑回归与SVM进行比较。
4.1 有损坏噪声的逻辑回归
定义。在损坏分布下的期望逻辑损失为
同样地,由于该期望并不存在一个闭合解,因此我们使用一个变分上界来作为替代。具体来讲,令为对于样本n的因变量的伪似然。我们有。利用数据增强技术,伪似然可以表示为
其中并且是符合分布的增强Polya-Gamma变量。利用式(18)我们可以导出期望逻辑损失乘以因子c(也就是)的上界:
并且得到变分优化问题:
其中是一个变分分布。
4.2 坐标下降算法
我们使用坐标下降算法来解决上述的变分问题:
对于(也就是E步骤) 在的基础上优化,有并且每一项都如下:
这是一个Polya-Gamma分布,其中。
对于w(也就是M步骤) 通过固定和移除无关项,这一步最小化如下目标:
如果数据维度不是很高,那么我们可以得到这个优化问题的闭合解:
然而,如果数据是高维的,那我们就必须采用有效的数值方法,和SVMs中的类似。
4.3 使用表征学习的dropout逻辑回归
我们将逻辑回归拓展使其能在损坏学习环境中学习隐特征。具体来说,利用一个D×K维的矩阵α,我们令表示为D维输入特征的一个K维非线性转化。我们重新考虑逻辑转化,其中每个元素K为。然后我们定义线性判别函数为
使用同样的数据增强技术,我们可以得到期望逻辑损失的一个变分上界。我们采用同样的策略利用泰勒展开在损坏特征均值处得到近似值,然后计算这个变分上界。我们提出了一种类似的最小化算法来解决这个问题。
05
实验结果及对比
本文在九个数据集上将我们对于分类和回归提出的模型进行对比,包括1)Amazon review;2)Dmoz;3)Reuters);4)CIFAR;5)MNIST;6)Hotelreview。其中Amazon review包含四种类型的文本评价数据集。
5.1 线性dropout分类器
5.1.1 dropout SVM vs.显式损坏
结果表明训练集中包含的损坏样本越多(M越大),误差越小,当M趋向于无穷时,性能最好,而这也相当于dropout SVM。
5.1.2 二分类问题
将Dropout-SVM和Dropout-LR在Amazon review数据集上进行对比,与当下最好的MCF-Logistic相比,这两种算法都得到了很不错的效果,说明在SVM上的dropout训练对于二分类问题是非常有效的。
5.1.3 多分类问题
采用“一对多”的策略在DMOZ,Reuters和CIFAR-10数据集上对比Dropout-SVM和Dropout-LR。在文章分类和图片分类问题上,使用dropout训练对于分类器性能都有了很大提升,Dropout-SVM和Dropout-LR的性能都远远优于基线MCF-Quadratic,在文章分类问题上Dropout-SVM比当下最好的MCF-Logistic的性能还要稍好一些。
5.1.4 回归问题
将Dropout-SVR和MCF-Quadratic在Hotelreview数据集上进行对比,结果表明对于任何dropout水平,Dropout-SVR的性能都要优于MCF-Quadratic,表明dropout训练同样适用于回归任务。
5.2 使用表征学习的分类器
将Dropout-LatentSVM和Dropout-LatentLR在图片分类和文本分类任务上进行对比,分别使用了CIFAR-10和Amazon review数据集,都能得出dropout训练能提高分类器性能的结论,但对于文本分类而言,非线性dropout分类器与线性分类器对比并没有得到明显提升,可能是因为单词本身就已经是高维特征,或者是简单的全连接网络不适用于文本分类。
5.3 Nightmare at test time
选择MNIST数据集来训练线性的Dropout-SVM、Dropout-LR和非线性的Dropout-LatentSVM、Dropout-LatentLR,结果表明Dropout-SVM比其他任务分类器都要稳定。利用隐特征的非线性分类器比线性分类器性能要好。
除此之外,文章还对隐特征可视化,对于隐藏维度的敏感性,时间复杂度进行了分析。
06
总结
本文针对线性SVM和对SVM利用隐特征进行的非线性拓展进行了dropout训练,利用数据增强技术,使用了迭代重加权最小二乘算法(IRLS)。利用同样的思想使用一种新的IRLS算法对于逻辑回归也进行了dropout训练,进一步探究了在dropout学习中不同损失函数之间的联系与区别。在不同任务上的实验结果表明了本文提出方法的有效性。
注:本文为该读者的阅读笔记,未经原论文作者和FCS期刊审读。仅供广大读者参考。
从上下文语境中学习: 基于相互增强模型的中文微博观点检索 2018 12(4):714-724
基于样本选择的安全图半监督学习方法 2018 12(4):725-735
基于LDA模型的协同过滤 2018 12(3):571-581
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社出版、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。
长按二维码关注Frontiers of Computer Science公众号