没有统计学背景,做数据分析很无厘头?

2019 年 3 月 20 日 图灵教育

| 人人都是数据分析师

| Standing on the Shoulders of Giants



没有美颜相机,出不来好看的照片?

NO!NO!NO!

我们有一款神奇的图像软件,

叫PS......


没有成年,学习不了编程?

NO!NO!NO!

我们有一款简易的少儿编程工具,

叫Scratch......


没有统计学背景,不能做数据分析?

NO!NO!NO!

我们有一款明星级数据可视化软件,

叫Tableau.......


Tableau

Tableau 致力于帮助人们查看并理解数据。Tableau 帮助任何人快速分析、可视化并分享信息。

超过 42,000 家客户通过使用 Tableau 在办公室或随时随地快速获得结果。数以万计的用户使用 Tableau Public 在博客与网站中分享数据。

——百度百科

2分钟Tableau介绍

无须过多的技术基础,任何个人、企业都可以轻松学会Tableau,并运用其可视化功能对数据进行处理和展示,从而更好地进行数据分析工作。下面我们通过一个简单的案例来熟悉一下Tableau拖放的作图方法。


Tableau 应用案例


第一步:数据准备

下面是一个从国家统计局网站获取的2016 年10 月~2017 年6 月的各地区、不同发电类型的当月发电量和去年同期发电量,数据存储为Excel 文件,如图1 所示。

图1 源数据


第二步:导入数据

下面打开Tableau 桌面版,“连接到数据”➤“Microsoft Excel”,将该数据表导入到Tableau 中,进入Tableau 工作区,如图2 图3 图4所示。


图2 工作区示意图


图3 认识视图工作区


图4 数据窗口

数据源中数据与Tableau 中数据对应关系如图5 所示。

图5 数据对应关系

上面显示的“维度”和“度量”是什么?

维度和度量是Tableau 的一种数据角色划分方式,离散和连续是另一种划分。


维度和度量

维度,往往是分类、时间方面定性的离散字段,将其拖放到功能区时,Tableau 不会进行计算,而是会对视图区进行分区,维度的内容显示为行或列的标题。

度量,往往是数值字段,将其拖放到功能区时,Tableau 默认会进行聚合运算,同时,视图区将产生相应的轴。

比如想展示各省发电量,这时“地区”字段就是维度,“发电量”为度量,“发电量”将依据各地区分别进行“总计”聚合运算。


————

通常Tableau 的这种分配是正确的,但有时也会出错。

比如数据源中有员工工号字段时,工号由一串数字构成,连接数据源后,Tableau 会将其自动分配到度量中。这种情况下,我们可以把工号从度量窗口拖放至维度窗口中,或右键选中“转换为维度”,以调整数据的角色。如图6 所示,通过拖放或“转换为维度”两种方式将字段“发电量”转换为维度。

图6 维度与度量转换

注意:只有离散字段才能作为维度存在,因此“发电量”在转换为维度后,会自动转换为离散,此时,其前面图标变为蓝色。


离散和连续

在Tableau 中,字段可以连续或离散。

一般情况下,将字段从“维度”区域拖到“列”或“行”时,值默认是离散的,Tableau 将创建列或行标题;

将字段从“度量”区域拖到“列”或“行”时,值将是连续的,Tableau 将创建轴。

在Tableau 中,字段前方的图标颜色用以区分离散和连续,蓝色是离散字段,绿色是连续字段,同时在行列标题区域,字段的背景颜色也如此定义,如图7 所示。

图7 离散和连续类型

当发电量为离散类型时,发电量中的每一个数字都是标题,字段颜色为蓝色;当发电量为连续类型时,左侧出现的是一条轴,轴上是连续刻度,发电量是轴的标题,字段颜色为绿色。

离散和连续类型可以相互转换,右键字段,在弹出框中就有“离散”和“连续”的选项,单击即可实现转换。

那上面数据窗口中各字段前如abc、#等符号是什么呢?

它是标示字段类型的图标。


▶▶ 字段类型

Tableau 支持的数据类型见表1。

表1 Tableau 支持的数据类型


说明:=# 即数字标志符号前加个等号,表示这个字段不是原数据中的字段,而是Tableau 自定义的一个数字型字段。同理, =abc 是指Tableau 自定义的一个字符串型字段。


第三步:创建视图

一个完整的Tableau 可视化产品由多个仪表板构成,每个仪表板由一个或多个视图(工作表)按照一定的布局方式构成,因此视图是Tableau 可视化产品最基本的组成单元。

下面介绍了在工作表里如何创建单个视图,在作图之前我们先认识Tableau 创建视图的功能区和视图区,如图3 所示。

图3 认识视图工作区

Tableau 作图非常简单,拖放相关字段到相应的功能区,Tableau 就会自动依据功能区相关功能将图形即时显示在视图区中。


▶▶ 行列功能区

我们以制作各地区发电量柱形图为例。选定字段“地区”,用鼠标将其拖放到列功能区,这时横轴就按照各地区名称进行了分区,各地区成为了区标题,如图8 所示。

图8 拖放地区字段到列功能区

同理,拖放字段“发电量”到行功能区,这时字段会自动显示成“总计(发电量)”,视图区显示的便是发电量各省12 个月份的累计值柱形图,如图9 所示。

图9 拖放发电量字段到行功能区

当然,行列功能区可以不止拖放一个字段,例如我们可以将字段“记录数”拖放到“总计(发电量)”的左边,Tableau 这时会根据度量字段“发电量”和“记录数”分别作出对应的轴,结果如图10 所示。

图10 在行功能区添加“记录数”字段

维度和度量都可以拖放到行功能区或列功能区,只是横轴、纵轴的显示信息会相应地改变,比如对于图10,我们可以单击工具栏上的,将行、列上的字段互换,这时“地区”显示在纵轴,横轴变成了“发电量”和“同期值”,如图11 所示。

图11 互换行列字段

拖放度量字段“发电量”到功能区,字段会自动显示成“总计(发电量)”,这反映了Tableau对度量字段进行了聚合运算,默认的聚合运算为总计。

Tableau 支持多种不同聚合运算,如总计、平均值、中位数、最大值、计数等。如果想改变聚合运算的类型,比如想计算各省平均值,只需在行功能区或列功能区的度量字段上,右键“总计(发电量)”或单击右侧小三角形,在弹出对话框中选择“度量”➤“平均值”即可,如图12 所示。

图12 度量字段的聚合运算

说明:Tableau 求平均值是对行数的平均。以上海为例,其平均值为发电量总和除以地区为上海的行数,在原数据中每个省有12 个月的发电量,每个月又分为5 个发电类型,则出现上海的总行数为12×5=60,即平均值=总计/60。


▶▶ 标记卡

在创建视图时,经常需要定义形状、颜色、大小、标签等图形属性。在Tableau 里,这些过程都将通过操作标记卡来完成。

图13 标记卡和标记类型

标记卡如图13 所示,其上部为标记类型,用以定义图形的形状。Tableau 提供了多种类型的图以供选择,缺省状态下为条形图。

标记类型下方有5 个像按钮一样的图标。这些按钮的使用很简单,只需把相关字段拖放到按钮中即可,同时单击按钮还可以对细节、方式、格式等进行调整。

此外还有3 个特殊按钮,只有在选择了对应的标记类型时,按钮才会显示出来。这3 个特殊按钮分别是线图对应的路径、饼图对应的角度和形状图形对应的形状,如图14 所示。

图14 特殊标记按钮


颜色、大小和标签

拖放“地区”到列功能区,拖放“发电量”到行功能区,完成最简单的显示各地区售电量累计值的柱形图。想让不同地区显示不同颜色,可利用标记卡中的颜色来完成,只需将字段“地区”拖放到颜色里即可(如图15 所示)。

图15 颜色图例

这时,视图区的右侧会自动出现颜色图例,用以说明颜色与地区的对应关系。

图16 编辑颜色

单击颜色图例右上角小箭头处,在弹出框中可以对颜色图例进行设置,如编辑标题、设置格式、排序等。单击选项“编辑颜色”,进入颜色编辑页面,可以对不同的区域自定义不同的颜色。比如要将安徽的蓝色改为红色,可选择“编辑颜色”进入颜色编辑页面。首先单击“安徽”,然后单击右侧选择调色板的红色,最后单击“确定”即可,如上图16 所示。

————

如果要对视图中的标记添加标签,如将“发电量”添加为标签显示在图上,只需将字段“发电量”拖放到标签即可,如图17 所示。

图17 添加标签

标签显示的是各地区的发电量总计,如果想让标签显示各地区发电量的总额百分比,可右键单击标记卡中的总计(发电量)或单击总计(发电量)右侧的小三角标记,在弹出的对话框中选择“快速表计算”➤“总额百分比”,这时视图中的标签将变为总额百分占比,如图18 所示。

此外,单击文本,可对标签的格式和表达方式等进行设置。

图18 标签显示为总额百分比

大小和颜色类似,拖放字段到“大小”,视图中的标记会根据该字段改变大小,这里不再详细阐述。需要注意的是,颜色和大小只能放一个字段,但是标签可以放多个字段。


▶▶ 筛选器

有时只想让Tableau 展示数据的某一部分,如只看2018 年1 月份的发电量、只看某些地区的发电情况、只看发电量大于100 亿千瓦时的数据等,这时可通过筛选器完成。

拖放任一字段(无论维度还是度量)到筛选器卡里,都会成为该视图的筛选器。如果让视图里只显示火力发电的点,或者只显示水力、风力、太阳能清洁能源的点,只需要将字段“发电类型”拖放到筛选器卡里,这时Tableau 会自动弹出一个对话框,单击“从列表中选择”选项就会显示“发电类型”的内容,这里可直接勾选想展现的发电类型,单击“确定”,“发电类型”字段就显示在筛选器中了,如图19 所示。

图19 添加筛选器

将字段拖放到筛选器卡之后,右键或单击右侧小三角形,在弹出的对话框中可对筛选器进行设置,如图20 所示。

图20 设置筛选器

说明:对于筛选器的使用,其实有更简单的方法:直接将鼠标移至数据窗口中需要用作筛选器的字段,右键选择“显示筛选器”即可。


▶▶ 页面

将一个字段拖放到页面卡会形成一个页面播放器,播放器可让工作表进行动态展示,展示形式更灵活。

为了更好地展示页面功能,我们新建一个工作表,拖放字段“统计周期”到列,Tableau会默认“统计周期”为年,我们要手动转换为月(注意选择连续的日期),拖放“发电量”到行,标记类型选择圆,如图21 所示。

图21 创建各月份发电量趋势图

拖放字段“统计周期”到页面卡,这时页面卡下方会自动出现一个“年(统计周期)”的播放器。将日期的显示“年(统计周期)”调整为“月(统计周期)”,如图22所示。

图22 设置页面播放器

单击播放器的播放键,可以让视图动态播放出来,各月份的发电量标记点动态出现。

如图23 所示,单击页面框右下角的

可设置播放速度。选择页面框的小箭头,可自定义页面框显示的内容;选择“显示历史记录”可以设置播放的效果,包括显示标记的长度、形式、样式等。

图23 设置播放器展示效果

————

本文节选自

《人人都是数据分析师:Tableau应用实战(第2版)


如何快速学习Tableau


Tableau快速入门主要有两个途径。


一、通过Tableau官网提供的免费教学视频

Tableau Training & Tutorials


二、阅读《人人都是数据分析师:Tableau应用实战(第2版)》

这本书注重实战,全书通过海量实例全面讲解Tableau功能及使用,对各类方法、技术进行了详细说明,是入门和系统学习Tableau技术的不二之选。


图灵原创

人人都是数据分析师:Tableau应用实战(第2版)

作者:刘红阁、王淑娟、温融冰

定价:79.00元

页数:360

基于10.5版本全新升级

海量实例贯穿全书,深度讲解核心功能

Tableau亚太区副总裁、百度副总裁、埃森哲大中华区董事总经理联袂推荐

百度、阿里、菜鸟网络一线数据专家经验,快速提升实战技能

书中全面介绍了Tableau的核心功能,包括数据连接与编辑、图形展示与编辑功能,如何与R等工具进行集成,如何在服务器上进行发布管理等内容,而且广泛覆盖数据获取与管理、基础与高级图形分析、地图分析、交互分析与数据挖掘、图表集成整合与分享发布等主要内容,方便大家快速掌握敏捷分析方法与技术。


本书作者

刘红阁博士

百度商业分析规划部负责人,原埃森哲咨询经理,专注于数据挖掘、机器学习、数据可视化领域。

王淑娟

阿里巴巴数据分析专家,原埃森哲咨询经理,专注于企业运营咨询、数据分析、数据可视化等领域。

温融冰

菜鸟网络数据分析专家,原埃森哲咨询经理,专注于企业战略管理、财务与绩效管理、数据分析等领域。


专家推荐

“自助式分析,交互式操作,数据在用户的简单拖放中转化为各个领域的决策智慧。希望这本书能够切实地帮助到广大非技术出身的商业分析师。人人勤动手,皆可做分析。”

——郑子斌

百度副总裁

百度搜索公司CTO

 

“本书通过真实的案例,阐述了一个完全不同于以往的数据分析方法论。它展示了领先企业如何让商业智能不再局限于少数技术人员,让多数人都掌握自助分析,读懂数据,创造更大的价值。”

——JY Pook

 Tableau亚太区副总裁

 

“Tableau是用于探索性分析和可视化分析的优秀商业智能工具。本书将分析案例与工具学习紧密结合,从独特的视角,用娓娓道来的方式向我们展示了这个强大工具的魅力,非常值得一读。”

——谢辉志

蚂蚁金服CTO线平台数据技术事业群数据平台部数据科学负责人

 

“在日常的工作中,从产品到运营,我们都用Tableau查看和分析方方面面的数据。很高兴看到这样一本结构清晰、案例丰富的好书。对于想入门或提升自己数据分析能力的朋友,这本书是你的优先选择。”

——纪杨

上海知达教育合伙人

Tableau 2016年中国区可视化大赛冠军



本书目录

序一 
序二 

序三

前言 

第1章 Tableau入门 
1.1 敏捷商务智能
1.2 数据可视化明星Tableau 
1.3 Tableau的主要特性
1.4 Tableau的产品体系
1.5 Tableau的工作区
1.6 Tableau的文件管理

第2章 典型应用场景
2.1 数据准备
2.2 认识Tableau数据
2.3 创建视图
2.4 创建仪表板 
2.5 保存工作成果 

第3章 数据连接与管理
3.1 Tableau的数据架构
3.2 数据连接
3.3 数据整合
3.4 数据加载
3.5 数据维护

第4章 初级可视化分析
4.1 条形图
4.2 直方图
4.3 饼图
4.4 折线图
4.5 基本表
4.6 压力图 
4.7 树地图
4.8 气泡图
4.9 圆视图
4.10 标靶图 
4.11 甘特图

第5章 高级数据操作
5.1 分层结构 
5.2 组 
5.3 集
5.4 参数
5.5 计算字段
5.6 变换
5.7 参考线及参考区间

第6章 高级可视化分析
6.1 帕累托图
6.2 盒须图
6.3 瀑布图
6.4 范围-线图
6.5 网络图

第7章 统计分析
7.1 散点图与相关分析
7.2 回归分析
7.3 时间序列分析
7.4 聚类分析
7.5 Tableau与R语言
7.6 Tableau与Python

第8章 分析图表整合
8.1 仪表板简介
8.2 操作步骤

第9章 分析成果共享
9.1 导出和发布数据(源)
9.2 导出图像和PDF文件
9.3 保存和发布工作簿

第10章 Tableau Server简介
10.1 安装Tableau Server 
10.2 管理Tableau Server
10.3 使用Tableau Server
10.4 安全机制

附录A Tableau函数
附录B 数据表

京东购


当当购


亚马逊购


福!利!时!间!

————

数据分析的用处很多,

我们可以通过数据分析来做某种决策;也可以用数据分析向别人展示某种结果。你最想用数据分析来做什么?留言跟大家分享一下吧!


或者讲讲你为什么很想得到这本书,

工作需要还是自我提升?

 

精选留言挑选5位小伙伴获得赠书

活动截至3月22日14:00。


    ▼
站在巨人的肩膀上,解锁更多IT技能
把时间交给阅读


☟ 更多数据相关图书

登录查看更多
0

相关内容

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
对不起,我们公司不招过了25岁还不懂数据分析的人
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
第二章 机器学习中的数学基础
Datartisan数据工匠
12+阅读 · 2018年4月5日
机器学习面试 | 这些题目一定会被问到
七月在线实验室
5+阅读 · 2017年12月10日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
3+阅读 · 2018年4月5日
VIP会员
相关资讯
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
对不起,我们公司不招过了25岁还不懂数据分析的人
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
第二章 机器学习中的数学基础
Datartisan数据工匠
12+阅读 · 2018年4月5日
机器学习面试 | 这些题目一定会被问到
七月在线实验室
5+阅读 · 2017年12月10日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Top
微信扫码咨询专知VIP会员