作者:郭小龙,R语言中文社区专栏作者。知乎专栏:https://www.zhihu.com/people/guo-xiao-long-3-18/posts
重新复习了《R语言实战》的第一、二章,感觉前两章是入门了解,难度并不大。按照相关资料说明,R和RStudio下载和安装非常顺利,安装和熟悉界面就不做过多介绍。本关的学习实践笔记没按章节来记录,当做一个整体知识点来对待,按照自己的理解和学习过程分为下面几个部分。
1、R语言的函数分类统计
R语言偏重函数,了解函数功能并后熟练应用是必备的技能。因此,把前两章中的函数在Excel中进行了统计列表,准备后期学习中遇到的函数也逐步增加进来。一方面是通过笔记记录增强认知,另一方面后续回顾时也方便复习。
前两章中涉及的函数统计表如下:
2、前两章知识要点笔记
学习中把讲座课件中向量、矩阵、数组等例子代码在RStudio中进行了输入实践,有些看似很简单的语句但输入后,Ctrl+Enter运行时总不成功。这部分实操内容居然花费很长时间,也是自己开始没想到的。真实体会是,看懂代码和成功运行出结果是完全不同的两个概念。
针对对第2章内容,通过Xmind软件进行了思维导图制作,制作思维导图过程进一步理清了书里内容脉络,后期翻看复习时也能一目了然。第1章内容只是简单概述,没进行导图制作。今后的学习将继续对所学内容定期回顾和思维导图制作,我发觉这对自己理清书中内容框架很有帮助。
3、实践作业的实操练习
(1)读取Excle病例数据
书中提到读取Excel文件的方法有两种,建议最好是先把Excel文件另存为CSV文本文件再导入。特意把两种方法都进行了尝试,但在尝试用read.xlsx()函数导入时,未能成功。
①第一种方法,先转化为CSV文件再导入
先打开Excel文件另存为CSV文档,再用函数read.table()或read.csv()读取(运行结果如下图)。需强调一点,函数中路径两个“\\”与“/”功能类似,但用“\”会显示错误,书中专门提到R语言中“/”的用法。
data <- read.table("G:/大数据作业实践和有用资料/第二关作业实践/病例数据.csv",header=TRUE,sep=",")
data
data <- read.csv("G:/大数据作业实践和有用资料/第二关作业实践/病例数据.csv",header=TRUE,sep=",")
data
②第二种方法,直接读取Excels格式资料
尝试先安装openxlsx包,然后用read.xlsx()函数导入。运行代码后打开openxlsx包未能成功(代码如下图),提示“不存在叫‘openxlsx’这个名字的程辑包”。查阅资料后,我感觉应该不是代码的问题,可能是包的安装和读取过程有误,准备在后面学习中解决该问题。
installed.packages("openxlsx")
library(openxlsx)
data <- read.xlsx("G:/大数据作业实践和有用资料/第二关作业实践/病例数据.csv",1)
data
(2)用R语言对病例数据进行简单分析
①获取病人数目
> patientdata <- nrow(data)
> patientdata
[1] 4
②患1型糖尿病的病人资料
type1 <- data[data$糖尿病类型=="1型糖尿病",]
type1
病人编号 姓名 年龄 糖尿病类型 病情 病情.1
1 1 猴子 29 1型糖尿病 较差 Poor
3 3 王五 28 1型糖尿病 显著好转 Excellent
③统计患1型糖尿病的病人人数
> type1.number <- nrow(type1)
> type1.number
[1] 2
4、几点思考和体会
通过两章内容的复习和实践,感觉这部分还是熟悉和入门的阶段,后面应该是更深度的学习,期待下一关的挑战。这关学习中有几点思考和体会如下:
(1)特意安装了英文版没选中文版,虽然不知具体这样有何优势,但按照老师过来人的经验去做了,相信会慢慢体会到。
(2)遇到问题尝试去Google去寻找答案,正在培养自己这样的习惯。
(3)作为新人,R和RStudio的下载安装、蓝灯软件的推荐,确实是节省了不少时间,学习过程中也能少走很多弯路,这是切身感触。
(4)看懂程序代码和实际成功运行出结果,真的是完全不同的概念。特别是新手,一定要亲手敲代码操作实践。
(5)包的安装和使用、批处理、网页和SPSS等不同数据格式数据的导入这些知识点相信在后面处理具体案例时是非常重要的,只是目前阶段暂时用不到。这个阶段我暂时搁置,等以后具体用到时再回头来学习实践。
公众号后台回复关键字即可学习
回复 R R语言快速入门免费视频
回复 统计 统计方法及其在R中的实现
回复 用户画像 民生银行客户画像搭建与应用
回复 大数据 大数据系列免费视频教程
回复 可视化 利用R语言做数据可视化
回复 数据挖掘 数据挖掘算法原理解释与应用
回复 机器学习 R&Python机器学习入门