缩短学习曲线并获得更大的价值 大数据的六大规则

2017 年 6 月 29 日 ITS专业大数据

作者:陈俊勋

“大数据”是近两年来各界最热议的话题之一。那么大数据究竟是什么?

据我个人理解,大数据包括结构化数据(Structured Data)和非结构化数据(Unstructured Data)。数据来源包括传统交易如企业ERP、财务、CRM系统和潜在海量的数字来源如网页、移动应用用户行为、教育视频点播和媒体资源。

由于“大数据”的热点集中和可以处理海量数据如大规模并行计算(massively parallel computing)、云计算、hadoop和MapReduce。因此,Oracle、IBM、微软、SAP和其他大厂家目前共同在推动相关对话。但光谈技术解决不了中国非500强企业所面临的行业竞争和混乱。这些企业已了解转型的必要性和紧迫性,关注的话题包含集合传统数据和数字数据产生的洞察和如何形成研究问题。当然非500强企业也了解B744引擎放不进拖拉机,所以偏向先建立扎实的数据分析基础,优化用户体验。

我也坚信大数据确实带来新业务机遇,但目前更关注数据如何驱动企业实际价值。本文将分享Countly与客户合作所获取的经验。

大数据的六大规则。

从Countly累计的经验,我整理了一些规则适合“小”和“大”的数据领域。当你开始你的大数据路途,这些规则将会帮你缩短学习曲线,并获得更大的价值:

1、在早期阶段,先建立数据灯塔再考虑大数据。

好好规划你的数据项目。在最初期,建议“失败快,但往前跌”(fail faster while failing forward)的规划。不要花24个月搭建海量的大数据环境,后期再发现这是你最大的错误。

你可以相当快开始采集数据、建立非完善的数据仓库和做数据分析。这种组建可称为数据灯塔,先关注三大趋势:

  • 发现以前未知的走势或关键驱动因素

  • 摸索异常的记录

  • 理解数据中的相关性

覆盖率有可能不完善,但获取一些立竿见影的成果和指引后期的扩展。关键是一开始得考虑规划扩展性和灵活性的选择。

2、建立大数据思考。

Avinash Kaushik,一位数字分析的专家,倡导采用框架的数字营销计量模型确保数据分析项目针对公司最重要的业务(请查看Avinash所整理的以下例子)。此外,你必须与高层有共识,不需太细,但在一页面总结明确的业务目标与实现。

数字营销核心指标

当你通过数据灯塔掌握这些数据,你所获取的见解将带给你惊喜。你对企业的影响将是巨大的,因为在很多企业还没集合传统数据和数字数据。

3、如果大数据思考比大数据技术更重要,那么在技术方面我们又能做些什么呢?

当你的公司使用免费的用户分析平台,如Google Analytics或友盟,你的数据将是产品,为厂家建立附加值(如谷歌Adsense)。由于虚拟商业模式抄袭是市场最隆重的赞美,自部署或在私人化的部署越主流以保障数据安全和灵活融合数据。

让我们继续讨论数字数据解决方案。由于你需要评估成本、二次开发灵活性、可扩展性、数据所有权和性能,可考虑开放的平台,如Countly用户行为分析平台和其他推荐数据可视化和其他实用的Javascript软件。

4、先追求正确的时刻获取数据,而不是实时数据。

另外,建议你先彻底了解你的公司目前如何组织数据,然后把数字数据融入现有流程。始终目标是如何匹配数据传化成见解和洞察。如果实时数据没创造业务价值,你何必投入资源实现呢?而且你的公司将省很多钱,因为海量的实时数据肯定不便宜!

数据采集过后,你的公司需要任何人工处理吗?如果答案是需要,那么你不需要实时数据,你需要正确的时刻获取数据。如果你有智能或规则驱动的自动化系统,那么你可考虑获取实时数据的“原材料”。

5、数据质量差,但还是得做业务决定。

我们的目标应该是尽可能地采集、处理和存储数据。这流程可能不完善,但数字数据仍然具有价值。因为相对于任何的传统来源,数字数据让你建立最完善的用户画面与传化。

数字数据质量确实有优化的空间,如何处理视频或眼花缭乱的社会媒体平台。但市场不会等你做这些优化,所以开始凭数据做小决定。记住,即使这些决定将是革命性的,因为数字与传统数据集在好多公司从来没集合!随着经验的累计和了解数据的限制,你将可以做更多附加值的决定。

6、消除噪音比找到信号更有价值。

到目前为止,我们查询的目标是从所有噪音摸索有价值的信号。以掌握正确的信号,前提包括清晰的研究问题、数据规模较小、数据集更完整。前美国国防部长DonaldRumsfeld所谓的已知的已知(Known Knowns)和已知的未知(Known Unknowns)。Rumsfeld采用这概念讨论反恐情报的噪音,但也适用于分析和研究(请查看以下模式),做明智的业务决定。当然,“未知”的象限需要你的公司累计经验才可以比较进行有效探讨。

已知的已知模式(来自TextOre)

以建立数据灯塔和面临大数据时代,你必须知道如何消除海量数据量的噪音,才可能开始寻找信号。

六个简单的规则,让你们革命者遵循,确保,革命成功。

这六条规则正在解决首席执行官的问题,而不是CIO或CTO。因此,所思考的的问题较宏观。此外,讨论大数据之前,我建议先建立扎实的基础,通过大数据思考并搭建数据灯塔。

你觉得以上的框架有价值吗?它会驱使你改变对大数据的处理方式吗?关于以上的规则,哪一条规则最实用?你从经验中分享的最大的数据建议是什么?期待回音!

End.


登录查看更多
1

相关内容

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
打怪升级!2020机器学习工程师技术路线图
专知会员服务
98+阅读 · 2020年6月3日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
专知会员服务
123+阅读 · 2020年3月26日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
人工智能在教育领域的应用探析
MOOC
12+阅读 · 2019年3月16日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
基于 Storm 的实时数据处理方案
开源中国
4+阅读 · 2018年3月15日
【工业大数据】工业大数据层层深度解析!
产业智能官
3+阅读 · 2018年1月20日
【工业互联网】工业互联网与工业大数据分析的应用
产业智能官
12+阅读 · 2017年12月26日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
Arxiv
4+阅读 · 2019年12月2日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2018年7月4日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年5月28日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
打怪升级!2020机器学习工程师技术路线图
专知会员服务
98+阅读 · 2020年6月3日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
专知会员服务
123+阅读 · 2020年3月26日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
相关资讯
人工智能在教育领域的应用探析
MOOC
12+阅读 · 2019年3月16日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
基于 Storm 的实时数据处理方案
开源中国
4+阅读 · 2018年3月15日
【工业大数据】工业大数据层层深度解析!
产业智能官
3+阅读 · 2018年1月20日
【工业互联网】工业互联网与工业大数据分析的应用
产业智能官
12+阅读 · 2017年12月26日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员