大数据分析,到底在分析什么?

2021 年 11 月 18 日 人人都是产品经理

关注并将「人人都是产品经理」设为星标

每天早 07 : 45 按时送达

“大数据”一词相信大家已经耳熟能详,然而,你真的了解什么是大数据、什么是大数据分析吗?若想了解什么是大数据分析,你需要深入业务流程,对数据如何采集有所了解。本篇文章里,作者对大数据分析一事做了解读,一起来看一下。


文共 2957 字,阅读需要 6 分钟

——————/ BEGIN /——————

“大数据”仨字已经被喊烂了,“大数据分析”也经常被人提起。可到底咋完全是“大数据分析”?为啥大家喊得很多,平时工作中很少感受得到?今天系统讲解一下。

普通人理解的“大数据”

普通人理解的大数据可谓千奇百怪,比如:

  • 一个excel文件 200M,多大的数据呀!

  • 我国人口14亿,这个数据好大呀!

  • 卧槽,我刚看了车,就有4S店推广电话,肯定收集了我的大数据。

  • ……

这些千奇百怪的理解,都是来自对“数据”本身不够了解导致的。想整明白“大数据”真正的含义,得从数据是从哪里来的讲起。

先理解“小数据”,

再谈“大数据”

最原始的数据采集方式就是:问卷。由专门的调查人员,借助一张张调查问卷,通过现场询问、测量等方式获得数据。

这种方法已经沿用了400多年,经典的统计学、管理学理论都是建立在此之上的(如下图)。

小数据有没用?有用!非常有用!

能采集到某个地区的数据,代表着政府对这个地区有统治力。能采集到越多的数据,中央就能掌握地方情况,从而加强管理。数据是如此重要,以至于历史上很长一段时间,统计任务归属于政府、军队、情报机关。我国的第一家调查公司还是在90年代初,在宝洁强烈要求下成立的。

但是,调研做法有三个明显的问题:

  1. 非常耗费人力。访问员、督导、审核、录入、数据处理……都是人。

  2. 非常耗费时间。设计问卷、填写、回收、都是时间。

  3. 准确度低。现场测量的数据会相对准,但口头问回来的大部分都不准。

这些问题,导致了问卷时代的数据采集,只能有抽样式的,不能是全量采集。也因此衍生出了专门的抽样理论和方法。但无论数据方法怎么改进,在业务上,抽样,始终是一个难以逾越的梗阻。

决策者总会觉得:

  1. 是不是样本量太少;

  2. 是不是代表性不够;

  3. 没有覆盖的样本是不是真的一致。

只要是抽样数据,就一定会被质疑,就总是充满怀疑。这也是最初“小数据”的说法来源,后续所有“大数据”其实都是围绕“小数据”问题而来。

1. 数据变大第一步:系统采集

数据从小变大的第一步,从系统采集开始。比如企业扩大规模,要在各地建连锁店,第一步做得就是装POS机,把交易数据采集进来,替代纸质订货单/出货单。此时想了解销售数据,是可以基于POS机收集的数据全量查看的(如下图)。

从抽样数据到全量数据,是一个质的变化。基于全量数据,可以直接管理到各个终端门店,直接基于数据作出经营决策。因此大部分企业的销售分析、经营分析、业务分析体系,都是在此基础之上建立起来的(如下图)。

但是这个阶段的局限也是很明显的:POS机只能记录交易结果,对过程一概不知。谁在买,买了多少,为啥买,通通不清楚。

这个阶段的分析,是典型的知其然,不知其所以然的分析,大部分分析只能通过成交结果去猜。如果只有这个阶段的数据,想做深入分析,还是得依靠调研。比如传统企业想了解门店成交流程,会做门店调查,研究消费者在门店的动线,询问消费者体验。

2. 数据变大第二步:主动采集

有了系统采集以后,大家自然地会想:除了交易数据,其他数据也能通过系统化采集。比如最简单的形式:让用户自己交身份证,通过图像识别录入。这样既能采集到用户数据,又能避免手动填写的错误。

但是问题来了:凭啥要交身份证给你呀!于是传统采集,只有银行、航空、通讯等有国家背景+法律规范要求的地方,才能相对准确地采集这些真实数据。

不过这些困难并没有阻挡住企业采集信息的热情。常见的手段,比如:勾引用户办会员卡,给生日礼遇让用户填写生日。用户完成信息给积分奖励之类。更激进的,甚至有常识在门店装人脸识别、装眼动仪跟踪设备来采集数据(当然,成本很高)。

为什么企业会孜孜不倦追求这些数据,因为这些数据真的有用。至少能把数据具体到一个人的身上,能识别出谁是高端用户,谁是沉睡用户,从而精细化运作(如下图)。

真正低成本的、解决采集消费者行为数据的问题,还得靠互联网产品。

3. 数据变大第三步:行为加入

互联网产品的最大优势,在于App/小程序/H5本身就是数字化产品。此时不但有条件记录到用户的点击、登录等行为数据,而且能将用户ID、手机号等信息整合成统一ID,效率比依赖线下纸质单张申请的流程强无数倍。

还能将视频、图片、文章等内容打标签,通过用户点击、转发次数,浏览时长,反推用户需求。对于经历过传统企业数据的人来说,互联网产品的数据简直就是鸟枪换炮。

相较之传统的会员基础信息、消费流水数据,用户行为数据量特别、特别的大,大家想想自己在淘宝逛多久才买一件东西就知道了。可能之前几百次点击浏览,最后才有一单交易。

因此,需要专门的大数据架构来支持这些数据的存储和计算。狭义上的大数据技术,特指对大量的用户行为数据、非结构化数据的存储和计算。

有了这些数据,才有现在我们流行的互联网分析方法,比如漏斗分析法(如下图)。

基于这些基础数据采集,还能延伸出更多数据应用,比如:

  • 模型类:行为预测、推荐算法;

  • 测试类:产品ABtest;

  • 画像类:用户画像。

虽然这些方法,基于交易数据也能做,但是数据量多寡,直接决定了结果准确度。从而影响到业务端使用。在传统时代,只有银行、运营商、航空公司独享的分析方法,成为现在互联网公司的标配。

然而即使这样,既然有一些问题不能解决:

  • 用户数据分散在若干平台,导致单一平台数据不足;

  • 用户心理无法直接反应为数据,冲动型行为会干扰正常数据判断;

  • 信息安全法规要求越发严格,对数据采集/使用限制在增多因此,如何合法合规、持续利用大数据资源,依然是今天一个重要议题。

上不了台面的“变大”方法

当然,还有一些灰色/黑色的方法,让数据变大

  • 直接从“有数据”的人手上,买数据!

  • 爬虫、撞库,硬捞用户数据。

  • 通过设备,默默收集用户数据。

这就是各种骚扰电话、垃圾短信的源头。当然,随着国家对信息安全保护要求越来越严格,这些玩意生存空间也是逐步被压缩,所以不谈也罢。

“大数据有啥用”的终极答案

纵观数据从小到大的整个过程可以看出:数据从来都有用。即使最简单、最不准的数据,也能反应管理上的问题。因此决策者们对于数据的追求,永远是孜孜不倦的,永远是不满足的(如下图)。

那么,为什么还有这么多人在问“大数据有啥用”呢?

因为并非所有人都理解“数据”的用途,别说大数据了,小数据丫也照样不会用。

截止到2021年,依然有人是拍脑袋决策,拍胸脯保证;依然有人沉迷于“老夫从业十年,我说的就是对的”;依然有人觉得大数据包治百病,代码一敲,钞票从电脑屏幕里喷薄而出;依然有人迷信“底层逻辑”“核心思维”,苦练内功心法。

总之,想用好数据,就得深入业务流程,具体了解数据采集方式,这样才能读懂数据背后的业务含义,才能把自己面临的具体问题转化为数据问题,才能解出正确答案。

采集和计算数据,是一门科学。

应用数据产生价值,是一种艺术。

差别大致如此。

—————— / END / ——————

产品经理培训产品运营培训企业内训服务

请在公众号后台回复「培训」了解更多

▼ 喜欢请分享&收藏,满意点个赞,最后点「在看」▼ 

登录查看更多
4

相关内容

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。
北约《军事系统的网络安全风险评估》技术报告
专知会员服务
99+阅读 · 2022年4月18日
《日本在智慧农业上的举措》最新报告,24页PPT
专知会员服务
56+阅读 · 2022年3月23日
【干货书】Python金融分析,714页pdf掌握数据驱动金融
专知会员服务
94+阅读 · 2021年12月17日
数据中心传感器技术应用 白皮书
专知会员服务
41+阅读 · 2021年11月13日
专知会员服务
41+阅读 · 2021年6月22日
【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
62+阅读 · 2021年4月23日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
To B和To C业务,数据分析怎么做?
人人都是产品经理
0+阅读 · 2022年4月14日
经营分析是什么?为什么大厂这么重视它
人人都是产品经理
0+阅读 · 2022年4月3日
不同行业的数据指标体系,是怎么搭建的?
人人都是产品经理
2+阅读 · 2022年3月23日
用户流失,该怎么分析?
人人都是产品经理
0+阅读 · 2022年2月17日
你写的数据分析报告没人看,为啥?!
人人都是产品经理
0+阅读 · 2022年2月13日
是什么原因让你不想换手机?
ZEALER订阅号
0+阅读 · 2022年2月12日
“做产品快2年了,怎么「基本功」还怎么差?”
人人都是产品经理
0+阅读 · 2021年12月30日
中台产品,要做什么不做什么?
人人都是产品经理
0+阅读 · 2021年12月21日
怎么理解格局这件事?
人人都是产品经理
0+阅读 · 2021年12月16日
大厂都在谈的数据思维,到底怎么建立?
人人都是产品经理
0+阅读 · 2021年11月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
1+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月17日
VIP会员
相关VIP内容
北约《军事系统的网络安全风险评估》技术报告
专知会员服务
99+阅读 · 2022年4月18日
《日本在智慧农业上的举措》最新报告,24页PPT
专知会员服务
56+阅读 · 2022年3月23日
【干货书】Python金融分析,714页pdf掌握数据驱动金融
专知会员服务
94+阅读 · 2021年12月17日
数据中心传感器技术应用 白皮书
专知会员服务
41+阅读 · 2021年11月13日
专知会员服务
41+阅读 · 2021年6月22日
【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
62+阅读 · 2021年4月23日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
相关资讯
To B和To C业务,数据分析怎么做?
人人都是产品经理
0+阅读 · 2022年4月14日
经营分析是什么?为什么大厂这么重视它
人人都是产品经理
0+阅读 · 2022年4月3日
不同行业的数据指标体系,是怎么搭建的?
人人都是产品经理
2+阅读 · 2022年3月23日
用户流失,该怎么分析?
人人都是产品经理
0+阅读 · 2022年2月17日
你写的数据分析报告没人看,为啥?!
人人都是产品经理
0+阅读 · 2022年2月13日
是什么原因让你不想换手机?
ZEALER订阅号
0+阅读 · 2022年2月12日
“做产品快2年了,怎么「基本功」还怎么差?”
人人都是产品经理
0+阅读 · 2021年12月30日
中台产品,要做什么不做什么?
人人都是产品经理
0+阅读 · 2021年12月21日
怎么理解格局这件事?
人人都是产品经理
0+阅读 · 2021年12月16日
大厂都在谈的数据思维,到底怎么建立?
人人都是产品经理
0+阅读 · 2021年11月14日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员