作者:王景灏
山东大学(威海)数学与统计学院学生
说明
这是一个关于以核方法为主的R包介绍,这个包包含了许多用于分类,聚类降维和可视化的非线性机器学习工具。该包使用了条件负定核(CND kernel),共集成了26个核,包含q核版本和cnd版本,其中包含DBSCAN,谱聚类,广义判别分析 (GDA),主成分分析(PCA),Isomap,线性判别分析(LLE),Sammon mapping和tSNE。
下载
1 在R中直接输入代码在CRAN上查找安装
2 直接下载好的qkerntool_1.18.tar.gz
3 Rstudio中在菜单栏Tools-Install Packages中查找安装
Install from下拉菜单可以选择是从CRAN还是本地安装包安装
cnd kernel
由于用于数据分析的经典核方法通常被认为仅限于正定核,因此,在qkerntools中提出了新的距离算法,新核方法计算高维投影空间中的距离公式如下
qKernel使用两个向量参数之间的内核函数值,即通常依赖于由定义的内核矩阵H之类的表达式
更改核的参数会更改数据的投影,从而更改投影空间中的距离。
为了通过R实现负定核表达,构建了一个S4类R包,其中表示为类“qkernel”或“cndkernel”的对象。这些函数可以作为参数传递给泛型函数,这些函数可以评估更有用的内核表达式,如核矩阵
qkernmatrix
由核方法构成的核矩阵
创造自己的核
自己输入核函数
qkpca
以iris数据集为例,随机提取二十个样本为测试集,对剩余样本使用“rbfbase”核进行降维以及对应的预测,例子使用了iris数据集,代码及结果如下
qkIsomap
通过核方法计算样本之间的距离,再通过Isomap进行降维,例子使用了Swiss Roll数据集,代码及结果如下
qkernel Spectral Clustering(qkpecc)
该方法通过重新构造拉普拉斯矩阵再进行切图,进行聚类,例子使用了iris数据集,代码及结果如下
R包下载地址请点击阅读原文
——————————————
往期精彩: