当加入
正则化的时候,分析和
正则化是类似的,也就是说我们仅仅是从菱形变成了圆形而已,同样还是求原曲线和圆形的切点作为最终解。当然与
范数比,我们这样求的
范数的从图上来看,不容易交在坐标轴上,但是仍然比较靠近坐标轴。因此这也就是我们老说的,
范数能让解比较小(靠近 0),但是比较平滑(不等于 0)。综上所述,我们可以看见,加入正则化项,在最小化经验误差的情况下,可以让我们选择解更简单(趋向于 0)的解。结构风险最小化:在经验风险最小化的基础上(也就是训练误差最小化),尽可能采用简单的模型,以此提高泛化预测精度。因此,加正则化项就是结构风险最小化的一种实现。正则化之所以能够降低过拟合的原因在于,正则化是结构风险最小化的一种策略实现。简单总结下:给 loss function 加上正则化项,能使新得到的优化目标函数
,需要在
和
中做一个权衡,如果还像原来只优化
的情况下,那可能得到一组解比较复杂,使得正则项
比较大,那么
就不是最优的,因此可以看出加正则项能让解更加简单,符合奥卡姆剃刀理论,同时也比较符合在偏差和方差(方差表示模型的复杂度)分析中,通过降低模型复杂度,得到更小的泛化误差,降低过拟合程度。
正则化就是在 loss function 后边所加正则项为
范数,加上
范数容易得到稀疏解(0 比较多)。
正则化就是 loss function 后边所加正则项为
范数的平方,加上
正则相比于
正则来说,得到的解比较平滑(不是稀疏),但是同样能够保证解中接近于 0(但不是等于 0,所以相对平滑)的维度比较多,降低模型的复杂度。1.6 并行化从逻辑回归的求解方法中我们可以看到,无论是随机梯度下降还是牛顿法,或者是没有提到的拟牛顿法,都是需要计算梯度的,因此逻辑回归的并行化最主要的就是对目标函数梯度计算的并行化。我们看到目标函数的梯度向量计算中只需要进行向量间的点乘和相加,可以很容易将每个迭代过程拆分成相互独立的计算步骤,由不同的节点进行独立计算,然后归并计算结果。下图是一个标签和样本矩阵,行为特征向量,列为特征维度。样本矩阵按行划分,将样本特征向量分布到不同的计算节点,由各计算节点完成自己所负责样本的点乘与求和计算,然后将计算结果进行归并,则实现了按行并行的 LR。按行并行的 LR 解决了样本数量的问题,但是实际情况中会存在针对高维特征向量进行逻辑回归的场景,仅仅按行进行并行处理,无法满足这类场景的需求,因此还需要按列将高维的特征向量拆分成若干小的向量进行求解。并行计算总共会被分为两个并行化计算步骤和两个结果归并步骤:步骤一:各节点并行计算点乘,计算 步骤二:对行号相同的节点归并点乘结果:步骤三:各节点独立算标量与特征向量相乘:
可以理解为由第 r 行节点上部分样本计算出的目标函数梯度向量在第 c 列节点上的分量。步骤四:对列号相同的节点进行归并: 就是目标函数的梯度向量 在第 c 列节点上的分量,对其进行归并得到目标函数的梯度向量:
这个过程如下图所示:
所以并行计算 LR 的流程如下所示。
所以并行 LR 实际上就是在求解损失函数最优解的过程中,针对寻找损失函数下降方向中的梯度方向计算作了并行化处理,而在利用梯度确定下降方向的过程中也可以采用并行化。
LR 是参数模型,SVM 是非参数模型,参数模型的前提是假设数据服从某一分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。所以 LR 受数据分布影响,尤其是样本不均衡时影响很大,需要先做平衡,而 SVM 不直接依赖于分布;
LR 可以产生概率,SVM 不能;
LR 不依赖样本之间的距离,SVM 是基于距离的;
LR 相对来说模型更简单好理解,特别是大规模线性分类时并行计算比较方便。而 SVM 的理解和优化相对来说复杂一些,SVM 转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。
逻辑回归是判别式模型 ,朴素贝叶斯是生成式模型 :判别式模型估计的是条件概率分布,给定观测变量 x 和目标变量 y 的条件模型,由数据直接学习决策函数 或者条件概率分布 作为预测的模型。判别方法关心的是对于给定的输入 x,应该预测什么样的输出 y;而生成式模型估计的是联合概率分布,基本思想是首先建立样本的联合概率概率密度模型 ,然后再得到后验概率 ,再利用它进行分类,生成式更关心的是对于给定输入 x 和输出 y 的生成关系;