数据统一的七原则

会员服务 ·

数据统一的七原则

2017 年 7 月 18 日 数据分析

数据统一的七原则

原文: Breaking Down the Seven Tenets of Data Unification

来源: https://www.datanami.com/2017/06/15/breaking-seven-tenets-data-unification/

品觉导读：

“所有的可规模化系统，都必须自动进行绝大多数的操作。”
“‘模式为先’（schema-first）的产品永远无法规模化。唯一的选择是采用‘模式为后’（schema-last）的产品。”
“需要进行具体的域操作时，只有协作性的系统才可实现规模化。”
“为了实现可规模化，任何的统一计算必须在多个核心和多个处理器上运行。”
“尽管存在第四条原则，但真正的可扩展应用需要复杂性低于N ** 2的并行算法。”
“规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。”
“必须支持实时增量统一。”

原文翻译：

数据统一可以说是数据分析领域的一个长期挑战。虽然联合式的方法获得了一些青睐，但绝大部分的数据分析从业者希望在分析之前，所有数据都能在同一个地方呈现出来。这意味着，来自不同实体的数据必须统一起来，而问题就出在这个地方。

在新白皮书《可规模化数据统一的七原则》中，著名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克（Michael Stonebraker）以其独特和直白的方式，探讨了上述挑战。

说到斯通布雷克这个人，他同时也是图灵奖得主、麻省理工学院教授，以及大数据分析公司Vertica（这家公司已经被惠普收购）的创始人。在那份白皮书的开头，他对数据统一进行了一番阐述。他说，数据统一由七步组成，包括获取、清洗、转换、模式集成、重复数据删除、分类和导出（但不要把这七步和七条原则搞混了）。

一般来说，企业主要使用两种方法来实现数据统一，包括提取转换加载（ETL）和主数据管理（MDM）。

斯通布雷克说，这两种方法各有利弊。

ETL非常灵活，适合不同的数据来源，使程序员可以手动编写转换程序，确保源数据的模式与集中式数据仓库项目采用的全局模式匹配。斯通布雷克说，由于自动化程度低，没有多少公司的ETL带宽能超过20个数据源。

至于MDM，它与ETL类似的地方在于，也预设了一个“主记录”，每一个专门类别（比如客户、部件和供应商）的所有文件都应该符合主记录的格式。但和ETL不同，MDM不是使用手动定制脚本，而是依靠一套“模糊合并”规则，把所有不同的文件转换成主格式。

但斯通布雷克说，不管是ETL还是MDM，都无法解决所有的数据统一难题，尤其是在数据量很大的情况下。针对这些限制，他提出了数据统一的七条原则。

由于当今大数据集的庞大规模及其对程序员的苛刻要求，任何的可规模化数据统一项目都必须在很大程度上实现自动化，不能依靠手动编写的程序。这催生了斯通布雷克的第一条原则：

“所有的可规模化系统，都必须自动进行绝大多数的操作。”

当今数据的多样性也催生出一个问题。比如，诺华制药公司（Novartis）想把1万名从事“湿性实验”工作的科学家的实验记录统一起来，但遇到了全局模式问题。总之，灵活的“模式读取”（Schema-On-Read）方法是解决数据多样性问题的唯一方法。这催生了斯通布雷克的第二条原则：

“‘模式为先’（schema-first）的产品永远无法规模化。唯一的选择是采用‘模式为后’（schema-last）的产品。”

虽然自动化是数据统一的关键因素，但人类专家的地位是肯定取代不了的。就诺华的那个例子而言，只有科学家本人才能证实特定的一个数据（比如新化合物的名字）是否准确，有没有拼写错误。这催生了第三条原则：

“需要进行具体的域操作时，只有协作性的系统才可实现规模化。”

对大规模数据统一来说，可扩展性必不可少。当数据集超过1000万个文件时，单个计算核心根本处理不了，更别说单个芯片或者单个电脑。这催生了第四条原则：

“为了实现可规模化，任何的统一计算必须在多个核心和多个处理器上运行。”

聚类算法是数据统一和数据清洗工具的核心。虽然这些算法是并行的，但如果太复杂的话，就会耗费太多时间。这催生了第五条原则：

“尽管存在第四条原则，但真正的可扩展应用需要复杂性低于N ** 2的并行算法。”

很多MDM产品采用基于规则的方法来确定转换。但考虑到当今企业试图统一的数据体量和多样性，这些方法行不通。这催生了第六条原则：

“规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。”

最后，数据统一系统必须适应客户的工作方式。从技术上来说，虽然理论上可以靠“蛮力”更新每一条变化的记录，但如果数据太多、变动频繁，就会造成混乱。这催生了第七条也是最后一条原则：

“必须支持实时增量统一。”

斯通布雷克说，ETL方法不符合第一、第二和第三条原则，而MDM方法不符合第一、第二和第六条原则。在大数据领域非常流行的自助式数据准备方法“至少”不符合第一和第三条原则。他还说，目前所有产品（ETL、MDM和自助式数据准备）可能都不符合第五和第七条原则。

本次转自：品觉微信公众号（pinjueche.com）

车品觉简介

畅销书《决战大数据》作者；国信优易数据研究院院长；红杉资本中国基金专家合伙人；浙江大学管理学院客席教授；全国信标委员；数据标准工作组副组长；美丽心灵基金会桑珠利民基金副主席。

原阿里巴巴集团副总裁，首任阿里数据委员会会长；现担任中国信息协会大数据分会副会长、中国计算机学会大数据专家委员会副主任、粤港信息化专家委员、中国计算数学学会第九届理事、清华大学教育指导委员（大数据项目）、浙江大学管理学院客席教授等职。

原创系列文章：

1：从0开始搭建自己的数据运营指标体系（概括篇）

2 ：从0开始搭建自己的数据运营指标体系（定位篇）

3 ：从0开始搭建自己的数据运营体系（业务理解篇）

4 ：数据指标的构建流程与逻辑

5 ：系列：从数据指标到数据运营指标体系

6: 实战：为自己的公号搭建一个数据运营指标体系

数据运营关联文章阅读：

数据分析、数据产品 关联文章阅读：

80%的运营注定了打杂？因为你没有搭建出一套有效的用户运营体系

从底层到应用，那些数据人的必备技能

读懂用户运营体系：用户分层和分群

做运营必须掌握的数据分析思维，你还敢说不会做数据分析

商务合作｜约稿请加qq：365242293

更多相关知识请回复：“ 月光宝盒 ”；

数据分析（ID : ecshujufenxi ）互联网科技与数据圈自己的微信，也是WeMedia自媒体联盟成员之一，WeMedia联盟覆盖5000万人群。

登录查看更多

相关内容

International Conference on Mobile Data Management

关注 10

MDM会议旨在寻找移动计算和数据管理领域寻求原始研究贡献，移动数据驱动的创新应用。官网地址：http://dblp.uni-trier.de/db/conf/mdm/

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【微众银行】联邦学习白皮书_v2.0，48页pdf，

专知会员服务

170+阅读 · 2020年4月26日

【实用书】流数据处理，Streaming Data，219页pdf

专知会员服务

78+阅读 · 2020年4月24日

【经典书】数据结构与算法C++，第二版，738页pdf

专知会员服务

171+阅读 · 2020年3月27日

工程领域大数据和人工智能原则

专知会员服务

126+阅读 · 2020年3月26日

【WWW2020】什么是正常的，什么是奇怪的，知识图谱中缺少什么：通过归纳总结的统一表征

专知会员服务

25+阅读 · 2020年3月24日

《人工智能2020：落地挑战与应对》56页pdf

专知会员服务

197+阅读 · 2020年3月8日

《代码整洁之道》：5大基本要点

专知会员服务

50+阅读 · 2020年3月3日

【大规模数据系统，552页ppt】Large-scale Data Systems

专知会员服务

61+阅读 · 2019年12月21日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

知识图谱的自动构建

DataFunTalk

57+阅读 · 2019年12月9日

知识图谱+数据中台，会是未来中台战略的答案吗？

InfoQ

4+阅读 · 2019年11月18日

【知识图谱】重磅 | 知识图谱落地的基本原则与最佳实践

产业智能官

19+阅读 · 2019年7月30日

论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

开放知识图谱

15+阅读 · 2019年5月7日

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

“联邦学习”实现“共同富裕”？来TF“共同富裕”！

中国计算机学会

5+阅读 · 2019年3月12日

企业数据AI化战略：从数据中台到AI中台

36大数据

11+阅读 · 2019年2月18日

【知识图谱】一个有效的知识图谱是如何构建的？

产业智能官

57+阅读 · 2018年4月5日

【开发者的2018】GAN、AutoML、统一框架、语音等十大趋势

新智元

3+阅读 · 2018年1月4日

【知识图谱】复旦大学：基于知识图谱的用户画像技术研究

产业智能官

40+阅读 · 2017年10月31日

What is Normal, What is Strange, and What is Missing in a Knowledge Graph: Unified Characterization via Inductive Summarization

Arxiv

8+阅读 · 2020年3月23日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

A Survey on Knowledge Graph-Based Recommender Systems

Arxiv

92+阅读 · 2020年2月28日

Causality for Machine Learning

Arxiv

26+阅读 · 2019年11月24日

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

Learning Personalized End-to-End Goal-Oriented Dialog

Arxiv

4+阅读 · 2018年11月12日

nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation

Arxiv

12+阅读 · 2018年9月27日

Baselines and test data for cross-lingual inference

Arxiv

3+阅读 · 2018年3月2日

PointCNN

Arxiv

8+阅读 · 2018年1月25日

Graph Summarization: A Survey

Arxiv

5+阅读 · 2017年4月12日

VIP会员