开了半天的会,让我不禁回想起CDO时代的二大阵营,数据平台产品(PasS vs. 数据服务产品(SasS),其实我们都知道数据最有活力的地方是在金融线和广告线。这样看来数据圈圈中的确是存在这三个怪圈。
数据平台
数据平台是个最复杂的数据产品形态,可以从数据源开始、数据分析模型、数据生产服务发布、数据可视化、还可以用数据流程对接到任何业务系统。目标是让三方数据分析专家构建功能或应用给业务同学使用的工具,目前我能看到的最成功的案例是阿里云的数加平台(这个也是我的团队曾经一起建设的)。数据平台最大的挑战是成熟度,你相信每个分析师都是挑剔的,每种模型和算法都是有局限性的,但每个具体的实际问题都是非常复杂的,但凡有个可用的模型和算法数据平台没有或者处理不了,都是不可接受的。就像今天我让搜Z用基于密度的聚类dbscan来处理一些数据,和P平台的开发者沟通后明确告知,由于平台底层的升级,平台的dbscan无法完成我们的任务,预计要3天实际修复。呵呵,过3天我的deal line都过了,老臣等不起!还好在平台找到另外二个基于密度的聚类方法,可以先去试一下,实在不行就只能自己写MR了。
数据服务
数据服务是相对简洁的数据产品形态,可能是几组归类好的数据服务列表、加一个比较标准化的服务接入框架。三方可以遵循标准发布自己的数据服务或内容服务,也可以通过接口调用的方法来使用平台上发布的服务。数据服务最大的挑战是服务粒度和可用性。用二个地址编码和逆地址编码的例子非常形象,地址编码的定义是输入文本地址描述(如你们家的门牌号)返回一个经纬度坐标点,这个定义数据服务非常容易。逆地址编码的定义是输入经纬度,返回一个地址文本描述,这个定义数据服务的难度就非常大。因为返回的文本地址描述的内容的可能性是非常丰富的。用户是想要门牌号地址还是小区地标地址,行政区是否要加上,邮政编码是否也需要,行政区的唯一编号是否要附加上,等等,各种应用场景有着不同的具体需求,是都放在这个服务中,还是需要再调用附加的服务。数据服务平台中最典型的数据服务是人群画像,这个是变现渠道广告和投放需要的基础数据服务之一,永远都是有钱的地方才有技术。
数据领域
数据领域服务是一种定形的数据产品形态,就像做搜索的、做广告推荐的、做互联网金融的同学从来不会去讨论数据产品这个命题,而是讨论领域业务场景中具体的算服务和功能,比如:ID映射、反作弊,圈人,反欺诈。似乎在这些用使用数据非常成功或者非常赚钱的领域,封装和完善数据产品给三方使用有点捡芝麻丢西瓜。但在通用智能飞速发展的今天,就如科大讯飞多年沉淀的技术壁垒在深度网络面前仅是一张A4纸的厚度,也许用数据平台或者服务平台构建生态也能成为一种的策略的选择。
当然还有另外一个选择,跳入AI的圈圈。