R语言数据挖掘利器:Rattle包

2018 年 11 月 17 日 R语言中文社区
作者简介Introduction

郑连虎,在数学学院取得理学学位的文科生,中国人民大学硕博连读生在读,山东大学管理学学士、理学学士

个人公众号:阿虎定量笔记


前言:这一期介绍数据挖掘可视化工具Rattle包,是一个用于数据挖掘的R语言图形交互界面,可以快速处理常见的数据挖掘问题。安装、载入Rattle包并调出Rattle界面的命令是:

install.packages("RGtk2")

install.packages("rattle")

library(rattle)

rattle()

可以看到Rattle提供的数据挖掘流程:导入数据Data-数据探索Explore-统计检验Test-预处理Transform-数据挖掘Cluster、Associate、Model-模型评估Evaluate:

1

导入数据Data

通过Data选项卡可导入R自带示例数据,txt、csv、Excel等格式的外部数据,通过ODBC连接SQL Server、MySQL等数据库等等。以导入Rattle自带的天气数据weather.csv文件为例:

2

数据探索与统计检验Explore/Test

通过Explore/Test选项卡可对数据进行汇总Summary,分布Distributions,相关分析Correlation,主成分分析Principal Components,t检验,F检验,K-S正态性检验,Wilcoxon检验等。以RainTomorrow为分组变量,画出MaxTemp变量的箱线图、直方图、累积分布图和benford图为例,并做weather数据的描述性统计:

3

预处理Transform

通过Transform选项卡可对数据进行标准化Rescale,数据插值Impute,数据重排列Recode,数据清理Cleanup操作。这里不再演示。

4

数据挖掘Cluster、Associate、Model

通过Cluster选项卡可实现数据聚类的K均值聚类法KMean,自适应的软子空间聚类算法 Ewkm,层次聚类法 Hierarchical,双聚类算法BiCluster;通过Associate选项可实现Apriori算法:默认最小支持度阈值min-sup是0.100,最小置信度阈值min-conf是0.100,每个项集所含项数的最小值是2,可根据实际情况进行调整参数设置;通过Model选项卡可评估数据模型的决策树模型Tree,随机森林模型Forest,自适应选择模型Boost,支持向量机分类模型SVM,普通线性回归模型Linear,单隐藏层人工神经网络模型Neural Net。以weather数据为例,分别建立K-Means聚类模型、随机森林模型:

5

模型评估Evaluate

通过Evaluate选项卡可以看到一系列模型评估标准:混淆矩阵Error Matrix,模型风险表Risk,模型ROC图像ROC,模型得分数据集Score。这里不再演示。


精彩回顾

R语言绘图:28个实用程序包

Stata绘图:简单好用的37条外部命令

技术贴│Stata回归图表美化

SPSS时间序列分析

R语言图形界面R commander


公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战  
回复 
Python       1小时破冰入门

回复 数据挖掘     R语言入门及数据挖掘
回复 
人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

登录查看更多
21

相关内容

数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
专知会员服务
139+阅读 · 2020年5月19日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
111+阅读 · 2020年5月9日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
193+阅读 · 2020年3月12日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
81+阅读 · 2020年3月4日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
R语言机器学习:xgboost的使用及其模型解释
R语言中文社区
11+阅读 · 2019年5月6日
R语言自然语言处理:文本分类
R语言中文社区
7+阅读 · 2019年4月27日
R语言自然语言处理:情感分析
R语言中文社区
16+阅读 · 2019年4月16日
R语言自然语言处理:词性标注与命名实体识别
R语言中文社区
7+阅读 · 2019年3月5日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
Xgboost算法——Kaggle案例
R语言中文社区
13+阅读 · 2018年3月13日
十分钟读懂python的“数据库”语言
Python技术博文
3+阅读 · 2017年11月9日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
8+阅读 · 2019年5月20日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
3+阅读 · 2018年6月1日
VIP会员
相关VIP内容
相关资讯
R语言机器学习:xgboost的使用及其模型解释
R语言中文社区
11+阅读 · 2019年5月6日
R语言自然语言处理:文本分类
R语言中文社区
7+阅读 · 2019年4月27日
R语言自然语言处理:情感分析
R语言中文社区
16+阅读 · 2019年4月16日
R语言自然语言处理:词性标注与命名实体识别
R语言中文社区
7+阅读 · 2019年3月5日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
Xgboost算法——Kaggle案例
R语言中文社区
13+阅读 · 2018年3月13日
十分钟读懂python的“数据库”语言
Python技术博文
3+阅读 · 2017年11月9日
Top
微信扫码咨询专知VIP会员