ggplot2:可视化设计师的神器,了解一下

2018 年 6 月 13 日 R语言中文社区

关于作者

余政彦,常常自称90后,但其实差点成为80后,他生于屏东,在台北住了六年、北京两年,未来两年将继续在波士顿探索人生。他搞过科研,做过公关,当过记者,目前醉心于数据可视化。




其实,犹豫了好几个礼拜,在想要不要写这一篇文章,毕竟这个信息图没用到多么高深复杂、酷炫炸天的可视化,分析也不够深入。但,这几天看到了某R语言的公众号发了一篇文章,介绍如何画直条图。对,就是很常见的那种直条图,读者的反响还不错,我突然觉得这篇文章可以写一下了


废话不多说,先上图。



这篇文章会大致讲解如何使用Adobe Illustrator、R语言的ggplot2、QGIS制作这个信息图,以及分析思路,并在文章的最后分享几个学习ggplot2的资源。



这个信息图为美国东北大学Information Design and Visualization项目2017年春季的一门课程的作业,这门课程叫做信息设计的研究方法(Information Design Research Methods)。课程分成两个部分,针对定性数据(qualitative data)与定量数据(quantitative data)进行研究。但因为这是开给设计学生的课,所以没有太深入,不论是在代码或是数据分析上。在课程进行到后半部时(课程大概三个多月,所以学习R语言并制作信息图的时间大概一个半月),我们需要自己找一份数据集,并使用R语言进行可视分析。这是我第一次学R语言,在这之前有一点点d3.js的基础。



先谈谈信息图的普遍限制

在2016年年底的时候,我分享了如何用Adobe Illustrator设计如下的信息图:


《信息图表是如何炼成的:媒体使用情况》(可点击链接)展示了个人搜集一周的数据,并可视化展现出来:



《信息图表是如何炼成的:阶层结构与isometric》(可点击链接)展示了,在给定一个国家的经济数据,如何用不同的方式呈现十几种不同的数据,并考量到可视化的整体排版:



(这里举例的两个作品,跟文章里展示的作品稍微有所不同,因为我在2017年暑假的时候有修改过)


这两个作品有个特点,就是数据量很小。所以在可视化数据时,可以使用软件一个一个拉出来,也就是说上面这两个信息图都是手动拉出来的,相当耗时耗力。但问题来了,


数据量过大的时候,怎么办?

需要对数据进行预处理(例如分组加总)再可视化的时候,怎么办?


此时若用excel计算数据,再用鼠标一个一个拉,已经是不可行了。适当的编程是解决这问题最好的方法。


为什么选择ggplot2

ggplot2是R的一个包,有几个优点:


首先,好上手。跟python比起来,适合没有学过编程语言的人,但对有编程背景的人来说可能会觉得R的代码逻辑很奇怪。ggplot2更是R语言里面,最好学习的包,可能有之一😂。在《R for Data Science》这本入门级神书中,可视化被摆在第二个章节(第一章是开篇介绍),因为这本书的作者(也是ggplot2的作者)认为,操作ggplot2进行可视化非常简单。


再来,R语言很强大。就我稍会的功能举一些例子,R语言可以:操作数据库(例如,mongolite),爬虫与数据清洗(例如,正则),数据分析(例如,统计推论),导出pdf(例如,markdown)等。从数据抓取、清洗、储存、分析、可视化、汇出等一系列的流程,皆可以使用R(更准确的来说,是RStudio)来完成,可以说非常强大。虽然跟python比起来部分功能是短板,但这不是这篇讨论的重点了。


最后,可以导出svg。这大概是设计师最关心的部分了。没有svg的图表设计,设计师选择死亡。


当然,可以导出svg的可视化工具不止ggplot2,例如RAW Graphs这个工具也不错,菜单操作易上手,但跟ggplot2比起来,很明显,限制很多,像是无法预处理数据。



数据来源

这个信息图用到的数据是美国政府搜集的公开数据:Fatality Analysis Reporting System,每一年度都会汇整出一份数据组。我挑选当时最新的2015年数据组,数据组里有一个以交通事故发生情况为主的数据,共有56个变量,三万多条数据条目。



分析思路、制图过程

既然选定了一份以交通事故发生情况为主的数据,找出具体原因是我认为最主要的目标。哪些洲有较高的交通事故发生?也就是说,为什么在这些州开车会相对比较危险。还有,哪些原因可能导致这些州较高的交通事故发生,像是地理位置、气候、出行时间等因素,也是我感兴趣的部分。


信息图分成三个部分:Part1 热力图;Part2 地图;Part3 散点图、Mosaic图、直条比例图,分别有不同的可视化、不同的分析目的。


Part1 热力图:快速看出在哪些州开车比较危险



上图左上显示美国各州在12个月份里面的死亡车祸发生次数。从这个图很明显可以看出有三条横杆颜色最深,分别是德克萨斯州、佛罗里达州、加利福尼亚州。


但这些州人口量多,有较多的车祸事故发生并不让人意外。所以我就又找了一份数据当年的驾驶司机数量来平均一下,如上图右。上图左下呈现的是标准化之后的结果,可以明显看出可视化有不同,并且较危险的州已经变成怀俄明州、蒙大拿州、密西西比州。


热力图在RStudio里面导出后,是长这样的:



是不是被丑哭了,不过没关系,我们可以导出pdf:



然后用Adobe Illustrator修改:



热力图的代码:



Part2 地图:找出最危险的州与最安全的州,它们事故发生地点



从热力图找出了最危险的州与最安全的州(各三个)后,要继续往下分析啦。这时候我关心的是,这些交通事故的发生地点,是发生在快速道路上比较多呢,还是发生在城里比较多?亦或是某些山路有较高的事故发生?这时候地图就需要来支援了。


此时应该是继续用ggplot2或是gg家族的ggmap来画地图,显得比较有一致性,不过,很遗憾的,我当时用ggplot2一直画不出我想要的效果。代码能力不够,只好机智来凑hhh,想到使用QGIS来辅助画图。QGIS是一个很好使用的地理信息可视化开源软件,一样可以导出svg做二次修改。


在原始数据里,56个变量里包含了经纬度,导入QGIS时是长这样的:



因为在前面的热力图里,已经挑选出六个州深入分析,所以筛选这里显示的数据,分别筛选出六个州的数据,具体如何筛选,顾及文章篇幅的关系,这里就不多解释了,网上有许多关于这个的教程。


以马萨诸塞州为例,先在RStudio里面画出马萨诸塞州的主要道路:



数据叠加之后,再稍微修改一下:



道路地图代码(这里代码不是用ggplot2):



但必须承认一下这样做不是完全准确的,因为我是用手动叠加,后续有时间我会继续修正。


补上用ggplot2画的地图,虽然这制图效果不是我想要的,但在叠加数据时,有参考这图:



ggplot2画的地图代码:



Part3 散点图、Mosaic图、直条比例图



有时候除了地图之外,可视分析还需要其他图表来辅助。我想知道在较安全的州与较危险的州,还有哪些因素可能造成事故发生。在此,我用散点图(上图第一行)来分析时间维度对事故发生的影响;用Mosaic图(上图第二行)来分析酒驾与事故发生时间的关系;最后用条形比例图(上图第三行)来呈现事故发生时的天气状况



1️⃣散点图

时间调整为一天,我想知道以每日的时间维度之下,哪些时候是车祸高峰时段,哪些时候是低峰时段。从图中可知,高峰时段是每日的下午三点到晚上八点之间。低峰时段是每日的凌晨五点左右。



散点图代码:



2️⃣Mosaic图

驾驶酒醉情况在密西西比州的情况如何?酒驾与否对车祸发生时间有什么关系呢?从图中可以看出,密西西比州的车祸事故发生多为非酒驾,且事故发生时间较多在午后与傍晚时段。



Mosaic图代码:



3️⃣长条比例图

这里显示的是六个州的长条比例图,假设所有车祸事故发生总数为1,那么事故发生时的不同天气占比为多少?天气代码1是晴天。有个分析点可以注意的是,虽然晴天占了较多的事故比例,可能是这些州的天气较多为晴天,但也有部分可能是在晴天时,驾驶对于路况比较松懈,从而导致车祸发生。



长条比例图代码:



从开始学习R语言到完成信息图,大概六七个个礼拜的时间,当时交出的作品如下图,因为觉得不太满意,所以暑假的时候,又花了十几个小时修改设计部分。下图跟首图比较之下,设计上很明显的有许多的不同(此处省略一万字😂)。



当时选定要分析的数据时,刚好碰上了学校一年一度的专案比赛,这个专案比赛可以选择任何的题材,所以我跟班上的两个同学一起合作(Divya,柳桦樱杨),设计了一个移动app产品,基于同样的数据但选择了不同的数据维度,彼此分工了数据分析、界面设计、体验设计,花了大概一个月的时间:



比赛当天的报道截图:



不知不觉已经过了一年多,现在回想起这段过程倒还是历历在目。很开心的是,当时的战友们都已经拿到了很不错的工作offer,一位去了西雅图的微软做体验设计师,一位去了新加坡的MIT感知城市实验室。愿你们在未来一切顺利。


最后再放一张图,来怀念一下当时最后一节课的上课情形。授课老师除了自己点评了班上每一个同学的作品,也邀请其他课程的老师来给评论。



其他学习资源

数据分析的热门语言,虽然近年被Python追赶过去,网上有许多的学习资源,ggplot2也不例外。


The R Graph Gallery

https://www.r-graph-gallery.com/

这个网站陈列了许多富有创意的可视化图表,皆是用R语言来实现(有针对用ggplot2的图表分类)。



ggplot2cheat sheet(小抄表)

https://www.rstudio.com/wp-content/uploads/2015/03/ggplot2-cheatsheet.pdf

ggplot2很实用的小抄表,跟着这个表一步一步走,很容易画出可视化。



欢迎任何反馈建议,以上。



大家都在看

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)



公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

登录查看更多
1

相关内容

【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
195+阅读 · 2020年6月29日
Python地理数据处理,362页pdf,Geoprocessing with Python
专知会员服务
114+阅读 · 2020年5月24日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
194+阅读 · 2020年3月12日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
181+阅读 · 2020年1月1日
AWVS12 V12.0.190530102 windows正式版完美破解版
黑白之道
29+阅读 · 2019年8月24日
7 款实用到哭的App,只说一遍
高效率工具搜罗
84+阅读 · 2019年4月30日
R_leaflet包_最易上手地图教程(一)
R语言中文社区
10+阅读 · 2019年3月6日
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
可视化多维数据的艺术
论智
10+阅读 · 2018年1月23日
ggstance:ggplot2的水平版本
R语言中文社区
5+阅读 · 2017年11月17日
一招检验10大深度学习框架哪家强!
深度学习世界
3+阅读 · 2017年9月14日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
Seeing What a GAN Cannot Generate
Arxiv
8+阅读 · 2019年10月24日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
W-net: Bridged U-net for 2D Medical Image Segmentation
Arxiv
19+阅读 · 2018年7月12日
VIP会员
相关资讯
AWVS12 V12.0.190530102 windows正式版完美破解版
黑白之道
29+阅读 · 2019年8月24日
7 款实用到哭的App,只说一遍
高效率工具搜罗
84+阅读 · 2019年4月30日
R_leaflet包_最易上手地图教程(一)
R语言中文社区
10+阅读 · 2019年3月6日
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
可视化多维数据的艺术
论智
10+阅读 · 2018年1月23日
ggstance:ggplot2的水平版本
R语言中文社区
5+阅读 · 2017年11月17日
一招检验10大深度学习框架哪家强!
深度学习世界
3+阅读 · 2017年9月14日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
相关论文
Top
微信扫码咨询专知VIP会员