【主成分分析法】NLPer的断舍离（下篇）

会员服务 ·

【主成分分析法】NLPer的断舍离（下篇）

2020 年 4 月 18 日 深度学习自然语言处理

一：内容预告

上一篇文章介绍了主成分分析法（PCA）的基本思想、主成分矩阵的计算和主成分的选择标准。

这篇文章为主成分分析法的下篇，主要关注以下内容：

主成分的方差贡献率
基于投影方差最大化的数学推导

二：主成分的方差贡献率

我们拆细了看各主成分是怎么得到的。

主成分可以由协方差矩阵的单位特征向量和原始变量矩阵进行线性组合得到。

P₁就是由，X的协方差矩阵最大特征根，λ₁的单位特征向量e₁转置而成（列向量变为行向量），于是第一主成分就是：

第一主成分的方差是最大的。

第二主成分满足：和第一主成分正交；在剩余的其他主成分中，方差最大。

第二主成分的表达式为：

同理，第k个主成分的表达式为：

我们知道，可以用主成分的方差来衡量其所能解释的数据集的大小，而主成分的方差就是原数据集X的协方差矩阵的特征值λ，所以第k个主成分的方差就是λ_k。

我们来定义一个指标，叫做主成分Y_k的方差贡献率，它是第k个主成分的方差占总方差的比例：

那么前k个主成分的方差累计贡献率为：

如果前k个主成分的方差累计贡献率超过了85%，那么说明用前k个主成分去代替原来的n个变量后，不能解释的方差不足15%，没有损失太多信息。

于是我们可以把n个变量减少为k个变量，达到降维的目的。

三：计算流程总结

为了推导主成分分析法的线性代数解，上一篇文章铺垫了很多，但推导出的结果却是相当漂亮简洁。

现在我们来总结主成分分析法的计算流程。

假设我们拿到了一份数据集，有m个样本，每个样本由n个特征（变量）来描述，那么我们可以按照以下的步骤进行降维：

1、将数据集中的每个样本作为列向量，按列排成一个n行m列的矩阵；

2、将矩阵的每一个行向量（每个变量）都减去该行向量的均值，使新行向量的均值为0，得到新的数据集矩阵X；

3、求X的协方差矩阵，并求出协方差矩阵的特征值λ和单位特征向量e；

4、按照特征值从大到小的顺序，将单位特征向量排列成矩阵，得到转换矩阵P，并按PX计算出主成分矩阵；

5、用特征值计算方差贡献率和方差累计贡献率，取方差累计贡献率超过85%的前k个主成分，或者想降至特定的k维，直接取前k个主成分。

四：主成分计算案例

为了更好地掌握主成分分析法，我们来看一个例子。

假设我们想研究房价与某些指数之间的关系，设定了4个变量，如下表所示。

样本数据取自1997年1月～2000年6月的统计资料，时间跨度为42个月，因此样本容量为m=42，为了简单起见，数据就不展示了。

第一步：计算数据集的协方差矩阵

将每个样本作为列向量构成一个矩阵，并对矩阵的每一个行向量进行0均值化，得到了4行42列的数据集矩阵X。

我们直接由X得到其协方差矩阵：

第二步：计算协方差矩阵的特征值和单位特征向量

我们用numpy来计算，代码如下：

import numpy as np
from numpy import linalg 

""" 1: 协方差矩阵 """
C = [[1,-0.339,0.444,0.525],
     [-0.339,1,0.076,-0.374],
     [0.444,0.076,1,0.853],
     [0.525,-0.374,0.853,1]]

""" 2: 计算特征值和特征向量 """
value,vector = linalg.eig(C)
print('特征值为：',np.round(value,4),'\n')
for i in range(4):
    print('特征值',np.round(value[i],4),'对应的特征向量为:\n',np.round(vector[:,i].T,4),'\n')

""" 3: 求每一列的L2范数,如果都是1，则已经单位化了 """  
print('特征向量已经是单位特征向量了：',linalg.norm(vector,ord=2,axis=0))

输出结果为：

特征值为： [2.3326 1.0899 0.5399 0.0376] 

特征值 2.3326 对应的特征向量为:
 [ 0.4947 -0.2687  0.5464  0.6201] 

特征值 1.0899 对应的特征向量为:
 [-0.2019  0.8378  0.5004  0.0832] 

特征值 0.5399 对应的特征向量为:
 [-0.844  -0.3399  0.1652  0.3805] 

特征值 0.0376 对应的特征向量为:
 [ 0.0458  0.3322 -0.651   0.681 ] 

特征向量已经是单位特征向量了： [1. 1. 1. 1.]

得到特征值是λ₁=2.3326 ，λ₂=1.0899 ，λ₃=0.5399 ，λ₄=0.0376，已经是从大到小排列好的了。

特征向量已经是单位特征向量了。

第三步：得到转换矩阵P和主成分矩阵Y

我们得到第一个主成分如下，也就是用最大特征值的特征向量对原始变量进行线性组合。

其他三个主成分可以类似得到。

第四步：计算方差贡献率和累计方差贡献率，选择k个主成分

有了协方差矩阵的特征值，计算就非常简单了。

""" 1: 方差贡献率 """
contrib_rate = value/sum(value)
print('方差贡献率为：',np.round(contrib_rate,4))

""" 2: 累计方差贡献率 """
cum_contrib_rate = np.cumsum(contrib_rate)
print('\n累计方差贡献率为：',np.round(cum_contrib_rate,4))

""" 输出结果 """
方差贡献率为： [0.5831 0.2725 0.135  0.0094]
累计方差贡献率为： [0.5831 0.8556 0.9906 1.    ]