硅谷的“中台论”与中国的“中台论”

2019 年 9 月 21 日 AI前线

作者 | 田晓旭
编辑 | Natalie
AI 前线导读:“中台”在国内企业中非常流行,大家都很好奇硅谷也有“中台”吗?如果有的话,硅谷是如何建设中台的?与国内企业的中台建设有何区别?...... 本文采访了一位在硅谷工作多年,后回国创业的技术人,相信他会解答大家的疑问。

更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)

当中台在国内风靡一时,人们也渐渐开始有这样的疑问,“硅谷有没有中台?”当然,在硅谷肯定没有“中台”这一词汇,但是在我们之前发布的文章《亚马逊 CTO 的“中台论”》中,其变革应用程序架构、调整企业组织架构等方式与国内的中台建设不谋而合,这是否意味着硅谷也在以自己的方式进行中台建设呢?

针对这一疑问,智领云 CEO 彭锋给我们做出了解释:“硅谷确实没有中台一词,‘中台’这个词可以说是国内特有,但是硅谷很早就开始‘中台’建设了。” 2005 年,彭锋美国马里兰大学计算机博士毕业之后,先后在 Ask.com 任工程总监和在 Twitter 任大数据架构师,对硅谷技术发展有较全面的认知,在采访过程中,不仅和我们讲述了硅谷和国内的“中台论”,还分享了“中台建设”的相关细节。

硅谷的“中台论”

在国内创立智领云这家关注于大数据和数据中台的企业之前,彭锋先后在两家硅谷公司工作,分别是 Ask.com 和 Twitter,工作期间都曾进行过与中台相关的工作。

在 Ask.com,彭锋所在的团队做的是私有云平台和中间件,也就是现在我们常说的技术中台,当时他们团队主要是做基础技术组件,完成之后,公司其它部门不需要重复编写这些可以重用的组件。比如,彭锋负责监控组件,公司其它部门、其它小组就不需自己写监控的功能。虽然那时没有技术中台这个名词,但是彭锋认为他们实际做的工作就是搭建私有云平台以及其上的中间件技术平台,这与现在的技术中台并没有太大差异。

2011 年,彭锋在 Twitter 任职,当时 Twitter 只有一个 Hadoop 集群,大概 80 台机器,公司 300 多人,大数据的应用也不多。他所在的大数据团队做的就是类似于数据中台的工作,公司所有人不用再重复开发相关数据组件,就可以共享数据能力。举个例子,产品经理如果要做产品,不再是去各个部门找数据,而是在平台上看有哪些数据、API 可以用,完成之后,通过测试就可以马上知道该产品是否有数据支持,大概一、两个星期就可以上线一个产品。再具体一点讲,用户分析部门具备用户画像的能力,当别的部门需要用户画像功能时,直接调用 API 就可以了;反欺诈部门需要甄别用户是不是机器人或者是恶意账号,他们把这个能力输出,其它部门想用的时候也可以直接调用 API。Twitter 所有部门之间的数据能力的共享和复用都是如此,这其实就相当于数据中台的功能。Twitter 的大数据平台后来发展到接近 8000 台机器,支持公司所有部门的数据应用。

国内的“中台论”

众所周知,中台一词在国内最早是由阿里提出来的,后来受到众多公司的追捧,但是对于中台的定义至今都没有定论,大家都有各自的看法。

什么是数据中台?彭锋认为“数据中台指的是企业抽象,共享,和复用数据能力的平台,其目的是实现去中心化的商品洞察能力和产品迭代能力,使得企业能够持续进行不断演进的数字化运营,适应产品市场和人员组织的快速变化。”

简单来说,数据中台的核心是数据能力的共享和复用,并且这种共享和复用要在一个可管理的系统中进行,目的是通过数据驱动公司业务。在大数据领域主要体现在两个方面,一个是 BI(商业洞见),一个是 AI(数字驱动的产品),对应美国常用的两个指标,一是 time to reliable insight,老板如何快速及时的获取可靠商业洞见决策;二是 time to market,产品如何更多更快地推向市场,并且快速迭代;因为市场和客户一直在变化,所以企业的产品、人员和组织架构也必须随之变化,而中台必须要能够适应这所有的变化。

数据中台不只是一个理念,它还需要一系列的工具来支撑。彭锋表示:“为什么我会强调去中心化的数据能力的复用和共享?因为如果共享是强制的,那么大部分业务部门是不愿意花时间在大数据上的,因为这跟业务没关系。那么我们怎么做呢?首先,要让业务部门尝到甜头,其次,工具要足够好用,第三,要保证系统无论如何不会崩坏。如果你有一系列在安全可控环境下的工具来共享业务部门的数据能力,并且能够量化这些能力带来的价值,业务部门才会愿意共享数据能力。”

数据中台与技术中台还不一样,因为数据是跟着业务走的,而技术的共性会比较多。让数据中台部门天天跟着业务去学习数据显然是不可能的,所以在 Twitter 这样的公司,其做法是数据中台部门必须提供足够好用的工具,赋能业务部门共享数据能力。而中国的情况又会有些不一样,他们可能是把某个能力抽取出来,由专门的组来负责。这两种方式都可行,因此,要视公司的具体情况而定。

而国内有些行业的数据平台建设,往往都是搭建一个 Hadoop 集群之后只供该部门内的项目使用。如果其它部门也需要大数据应用,因为没有一个很好的数据平台架构,导致第一个部门的大数据平台在给第二个部门共享时非常困难,那么就再独立搭建一个 Hadoop 集群供第二个部门使用。这样就会产生大量的数据孤岛和应用孤岛。因此,智领云在帮助用户做数据平台建设时,从一开始就要求各个部门之间要共享集群,每个数据应用都必须接入到现有的平台。

中台建设不是从 0 到 1,而是从 0 到 0.1

有人认为数据中台的建设是从 0 到 1,从有到无,但彭锋认为数据中台的建设应该是从 0 到 0.1,要很快见效,不断迭代,分阶段逐渐体现出数据中台的价值,这样各个部门才有动力继续配合建设数据中台。

彭锋表示,当时他们进行数据中台建设时,刚好组件化发展起来了,所以一开始就制定了标准,并开发了一系列工具,这样大家的抵触情绪就会小很多。例如,平台提供了很多数据处理框架,产品上线之后很快就能得到反馈,但是业务部门必须把他们的数据接入到平台上才能使用。另外,由于各个部门都需要使用到其它部门的数据,所以各个部门需要把他们的数据共享出来,接入到平台上,才能使用数据平台提供的功能和其它部门的数据。

从工程师的角度来看,这样开发的服务不仅部门内部可以使用,公司其它组也可以用到,在能力得到大家认可的情况下,其它工程师还会给这个项目 debug,一举两得。当其它部门的工程师也开始这样发布服务时,就形成了一个良性循环。

从产品经理的角度来看,过去产品经理开发一个产品首先要看数据体系、技术体系能不能支持,而且一个人还不行,最少得两个人,一个负责去看技术问题,一个负责去看数据问题,挨个去每个部门看有没有数据,数据打通,生产化需要多长时间。通常,需要两三个星期才能完成决策,还不一定准确,而数据中台建设之后,两三个星期就能上线新产品。

什么样的企业需要建设数据中台?

当数据中台成为热点之后,很多企业都一窝蜂的开始要建设数据中台,那么是否所有的企业都适合建设数据中台?适合的企业有哪些共通点?

事实上,拥有多个事业部、多个产品线,需要在众多产品线中形成数据共享和复用的企业适合建设中台。当多个产品线、多个业务部门形成数据合力之后,新产品线在接入数据平台的情况下,能够快速构建上线,例如,某个公司想要实时评估广告投放效果,但是相关数据分别存储在渠道商的网站上,在自己的业务系统中,以及第三方的 ERP 和 CRM 中。以前数据没有打通的时候,无法达到数据联动的效果,可能一个星期才能形成全面的业务报告,但是现在可以实时生成反馈,自动、动态地去展示投放效果。

大企业需要数据中台,那小企业需要吗?彭锋表示:“如果是只有一条业务线和一个大数据集群的小企业不需要数据中台,但是需要为数据中台做准备。为什么?因为数据中台强调的是共享复用,只有一条业务线,要数据中台干什么?但我们要为产品扩展做准备,数据中台不是目的,数据驱动才是目的。所以,无论企业的规模如何,都会需要数据驱动,进而需要建设数据中台或为其做准备。”

做中台,要动组织架构吗?

提到中台建设,很多人自然会联想到组织架构的变动,中台建设与企业组织架构变动之间是充分条件吗?彭锋表示:“中台建设不一定要需要组织架构的变动,要视企业具体的组织架构和所要建设的中台类型来分别看待。”

技术中台的建设一定要动组织架构! 以存储监控为例,原来在各个部门都需要实现自己的存储监控功能,但是现在只需要使用通用组件即可,所以这些部门的存储、监控技术人员就可以抽取出来,重组成一个新的部门。

数据中台的建设不一定要动组织架构! 建设数据中台时,如果企业原来的数据平台是每个部门分别建设的,那么就需要动组织架构,如果企业本来是有一个中间的数据平台在做,那么就无需再动组织架构了。数据中台建设有一个关键的问题,数据能力由谁来提供?有人认为应该由数据中台部门来推动,将数据能力抽取到数据中台,但是彭锋认为所有数据共享能力都应该是由业务部门来提供,数据中台部门提供工具,所以在这种情况下,组织架构不需要变,开发流程会改变,以前各组件都是自己负责自己的数据,但是现在各组件的数据都必须符合公司规范。

虽然建设中台是否动组织架构不太确定,但确定的是中台战略会涉及到多方利益,因此 中台建设一定是个“一把手”工程。

技术中台、数据中台和业务中台是 3 个必要的中台

中台的概念一热,一下子出现很多中台,比如业务中台、数据中台、技术中台、算法中台、移动中台等,这么多中台是否都有必要建设呢?彭锋认为对企业来说,必要的中台有三个,分别是技术中台、数据中台和业务中台。

这三个中台之间的关系如下图所示,技术中台和数据中并列排在下面,而业务中台排在这两者之上:

业务中台、技术中台与数据中台之间的关系

其中,技术中台会涉及到架构变化。一般来说,技术中台不会要求各个部门把自己的所有组件共享出来,但是有一个中间件组专门负责开发中间件,各个部门必须使用他们开发的中间件;数据中台,总体来说就是各个业务部门在统一的数据平台上提供数据的复用和共享能力;而业务中台主要是用于业务迭代,其中会有很多业务模块,当有新产品要开发时,大部分不需要重新写,而是采取搭积木的方式,选取适合的业务模块,在上层编写产品业务逻辑即可。

数据中台的分层体系及数据流转

在之前的文章《昨天讲平台、今天变中台,数据中台都干了啥?》中,有专家认为一个完整的数据平台至少应该包含三层,即大数据计算平台、数据中台、数据应用前台。而彭锋认为数据平台应该包括四层:“未来的程序一定是云原生的,即使现在有些组件不是云原生的,以后也一定是云原生的。因此,数据平台的底层一定是个私有云平台,中间一层是大数据基础组件层,包括 Hadoop、Kafka、Spark、认证安全、共享存储等等,再上一层是大数据运营管理层,即如何把组件以一种最方便、最安全可靠的方式实现数据的共享和复用,最上面的一层是业务部门输出的数据能力层,在大数据运营管理层之下,各部门能够输出和复用数据能力。”

数据平台的分层体系

公共模块的整合、提炼是数据中台建设的重点,彭锋认为比较重要的公共模块有数据采集、数据转换、数据治理、数据和应用资产管理、数据分析、数据服务和数据展示,除此之外,还有一些必要的工具,例如数据安全、审计、多租户、资源隔离、监控等等。

当数据进入到数据中台之后,它的流转路径是怎样的呢?首先,原始数据会先导入到数据湖,接着转换到数据仓库,再转换到数据集市,数据集市中会有数据服务的发布工具,自动发布到平台,并与具体的业务系统进行对接。当然,工具不仅有自动发布工具,还有包括数据应用的调度管理、数据服务的生产、算法平台的执行以及数据格式化等等。

写在最后

硅谷公司有没有在建设“数据中台”,其实这不是一个应该纠结的问题,在彭锋看来:“数据中台不是一个产品,实际上是一套方法论,是指导企业如何成为一家数据驱动企业的方法论。智领云要做的就是将这一套在硅谷已经被实践成功证明的方法论带给中国的企业用户,从而帮助他们通过数据中台,较快的转型成为一家数据驱动的智能企业。”

今日荐文

点击下方图片即可阅读

多次问鼎NuerIPS、MRQA等国际顶级比赛,百度NLP技术到底有多强?


活动推荐

AICon 全球人工智能与机器学习技术大会将于 11 月在北京举行,这里不仅有硅谷、BAT、独角兽们的 AI 技术案例解析,还有颜水成、贾扬清、崔宝秋等大咖现场经验分享。部分议题抢先看:

  • 微软小冰:人格化对话机器人的构建及在语音场景当中的实践

  • 阿里巴巴:智能家装设计中的 3D 算法应用实践

  • 蚂蚁金服:AI 赋能普惠金融的探索与实践

  • 腾讯:腾讯云知识图谱技术与应用实践之路

  • 美团:刻画物理世界的 AI 技术和应用

  • 滴滴:滴滴搜索系统的深度学习演进之路

  • 360:360 金融的 AI 实践之旅


你也「在看」吗?👇

登录查看更多
4

相关内容

商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
69+阅读 · 2019年11月25日
重磅 | 腾讯教育业务布局首次公开
雷锋网
5+阅读 · 2019年2月14日
蚂蚁金服微服务实践(附演讲PPT)
开源中国
18+阅读 · 2018年12月21日
乌镇大佬都在扯的AI,都有哪些案例落地了?
计算广告
3+阅读 · 2017年12月6日
Arxiv
4+阅读 · 2019年12月2日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
9+阅读 · 2018年3月23日
Arxiv
8+阅读 · 2018年2月23日
Arxiv
6+阅读 · 2018年1月11日
VIP会员
相关论文
Arxiv
4+阅读 · 2019年12月2日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
9+阅读 · 2018年3月23日
Arxiv
8+阅读 · 2018年2月23日
Arxiv
6+阅读 · 2018年1月11日
Top
微信扫码咨询专知VIP会员