郑连虎,在数学学院取得理学学位的文科生,中国人民大学硕博连读生在读,山东大学管理学学士、理学学士
个人公众号:阿虎定量笔记
前言:这一期介绍数据挖掘可视化工具Rattle包,是一个用于数据挖掘的R语言图形交互界面,可以快速处理常见的数据挖掘问题。安装、载入Rattle包并调出Rattle界面的命令是:
install.packages("RGtk2")
install.packages("rattle")
library(rattle)
rattle()
1
导入数据Data
通过Data选项卡可导入R自带示例数据,txt、csv、Excel等格式的外部数据,通过ODBC连接SQL Server、MySQL等数据库等等。以导入Rattle自带的天气数据weather.csv文件为例:
2
数据探索与统计检验Explore/Test
通过Explore/Test选项卡可对数据进行汇总Summary,分布Distributions,相关分析Correlation,主成分分析Principal Components,t检验,F检验,K-S正态性检验,Wilcoxon检验等。以RainTomorrow为分组变量,画出MaxTemp变量的箱线图、直方图、累积分布图和benford图为例,并做weather数据的描述性统计:
3
预处理Transform
通过Transform选项卡可对数据进行标准化Rescale,数据插值Impute,数据重排列Recode,数据清理Cleanup操作。这里不再演示。
4
数据挖掘Cluster、Associate、Model
通过Cluster选项卡可实现数据聚类的K均值聚类法KMean,自适应的软子空间聚类算法 Ewkm,层次聚类法 Hierarchical,双聚类算法BiCluster;通过Associate选项可实现Apriori算法:默认最小支持度阈值min-sup是0.100,最小置信度阈值min-conf是0.100,每个项集所含项数的最小值是2,可根据实际情况进行调整参数设置;通过Model选项卡可评估数据模型的决策树模型Tree,随机森林模型Forest,自适应选择模型Boost,支持向量机分类模型SVM,普通线性回归模型Linear,单隐藏层人工神经网络模型Neural Net。以weather数据为例,分别建立K-Means聚类模型、随机森林模型:
5
模型评估Evaluate
通过Evaluate选项卡可以看到一系列模型评估标准:混淆矩阵Error Matrix,模型风险表Risk,模型ROC图像ROC,模型得分数据集Score。这里不再演示。
公众号后台回复关键字即可学习
回复 爬虫 爬虫三大案例实战
回复 Python 1小时破冰入门回复 数据挖掘 R语言入门及数据挖掘
回复 人工智能 三个月入门人工智能
回复 数据分析师 数据分析师成长之路
回复 机器学习 机器学习的商业应用
回复 数据科学 数据科学实战
回复 常用算法 常用数据挖掘算法