作者:陈俊勋
“大数据”是近两年来各界最热议的话题之一。那么大数据究竟是什么?
据我个人理解,大数据包括结构化数据(Structured Data)和非结构化数据(Unstructured Data)。数据来源包括传统交易如企业ERP、财务、CRM系统和潜在海量的数字来源如网页、移动应用用户行为、教育视频点播和媒体资源。
由于“大数据”的热点集中和可以处理海量数据如大规模并行计算(massively parallel computing)、云计算、hadoop和MapReduce。因此,Oracle、IBM、微软、SAP和其他大厂家目前共同在推动相关对话。但光谈技术解决不了中国非500强企业所面临的行业竞争和混乱。这些企业已了解转型的必要性和紧迫性,关注的话题包含集合传统数据和数字数据产生的洞察和如何形成研究问题。当然非500强企业也了解B744引擎放不进拖拉机,所以偏向先建立扎实的数据分析基础,优化用户体验。
我也坚信大数据确实带来新业务机遇,但目前更关注数据如何驱动企业实际价值。本文将分享Countly与客户合作所获取的经验。
大数据的六大规则。
从Countly累计的经验,我整理了一些规则适合“小”和“大”的数据领域。当你开始你的大数据路途,这些规则将会帮你缩短学习曲线,并获得更大的价值:
好好规划你的数据项目。在最初期,建议“失败快,但往前跌”(fail faster while failing forward)的规划。不要花24个月搭建海量的大数据环境,后期再发现这是你最大的错误。
你可以相当快开始采集数据、建立非完善的数据仓库和做数据分析。这种组建可称为数据灯塔,先关注三大趋势:
发现以前未知的走势或关键驱动因素
摸索异常的记录
理解数据中的相关性
覆盖率有可能不完善,但获取一些立竿见影的成果和指引后期的扩展。关键是一开始得考虑规划扩展性和灵活性的选择。
Avinash Kaushik,一位数字分析的专家,倡导采用框架的数字营销计量模型确保数据分析项目针对公司最重要的业务(请查看Avinash所整理的以下例子)。此外,你必须与高层有共识,不需太细,但在一页面总结明确的业务目标与实现。
数字营销核心指标
当你通过数据灯塔掌握这些数据,你所获取的见解将带给你惊喜。你对企业的影响将是巨大的,因为在很多企业还没集合传统数据和数字数据。
当你的公司使用免费的用户分析平台,如Google Analytics或友盟,你的数据将是产品,为厂家建立附加值(如谷歌Adsense)。由于虚拟商业模式抄袭是市场最隆重的赞美,自部署或在私人化的部署越主流以保障数据安全和灵活融合数据。
让我们继续讨论数字数据解决方案。由于你需要评估成本、二次开发灵活性、可扩展性、数据所有权和性能,可考虑开放的平台,如Countly用户行为分析平台和其他推荐数据可视化和其他实用的Javascript软件。
另外,建议你先彻底了解你的公司目前如何组织数据,然后把数字数据融入现有流程。始终目标是如何匹配数据传化成见解和洞察。如果实时数据没创造业务价值,你何必投入资源实现呢?而且你的公司将省很多钱,因为海量的实时数据肯定不便宜!
数据采集过后,你的公司需要任何人工处理吗?如果答案是需要,那么你不需要实时数据,你需要正确的时刻获取数据。如果你有智能或规则驱动的自动化系统,那么你可考虑获取实时数据的“原材料”。
我们的目标应该是尽可能地采集、处理和存储数据。这流程可能不完善,但数字数据仍然具有价值。因为相对于任何的传统来源,数字数据让你建立最完善的用户画面与传化。
数字数据质量确实有优化的空间,如何处理视频或眼花缭乱的社会媒体平台。但市场不会等你做这些优化,所以开始凭数据做小决定。记住,即使这些决定将是革命性的,因为数字与传统数据集在好多公司从来没集合!随着经验的累计和了解数据的限制,你将可以做更多附加值的决定。
到目前为止,我们查询的目标是从所有噪音摸索有价值的信号。以掌握正确的信号,前提包括清晰的研究问题、数据规模较小、数据集更完整。前美国国防部长DonaldRumsfeld所谓的已知的已知(Known Knowns)和已知的未知(Known Unknowns)。Rumsfeld采用这概念讨论反恐情报的噪音,但也适用于分析和研究(请查看以下模式),做明智的业务决定。当然,“未知”的象限需要你的公司累计经验才可以比较进行有效探讨。
已知的已知模式(来自TextOre)
以建立数据灯塔和面临大数据时代,你必须知道如何消除海量数据量的噪音,才可能开始寻找信号。
六个简单的规则,让你们革命者遵循,确保,革命成功。
这六条规则正在解决首席执行官的问题,而不是CIO或CTO。因此,所思考的的问题较宏观。此外,讨论大数据之前,我建议先建立扎实的基础,通过大数据思考并搭建数据灯塔。
你觉得以上的框架有价值吗?它会驱使你改变对大数据的处理方式吗?关于以上的规则,哪一条规则最实用?你从经验中分享的最大的数据建议是什么?期待回音!
End.