数据圈圈

2017 年 12 月 13 日 劲说 劲叔

开了半天的会,让我不禁回想起CDO时代的二大阵营,数据平台产品(PasS vs. 数据服务产品(SasS),其实我们都知道数据最有活力的地方是在金融线和广告线。这样看来数据圈圈中的确是存在这三个怪圈。


数据平台

数据平台是个最复杂的数据产品形态,可以从数据源开始、数据分析模型、数据生产服务发布、数据可视化、还可以用数据流程对接到任何业务系统。目标是让三方数据分析专家构建功能或应用给业务同学使用的工具,目前我能看到的最成功的案例是阿里云的数加平台(这个也是我的团队曾经一起建设的)。数据平台最大的挑战是成熟度,你相信每个分析师都是挑剔的,每种模型和算法都是有局限性的,但每个具体的实际问题都是非常复杂的,但凡有个可用的模型和算法数据平台没有或者处理不了,都是不可接受的。就像今天我让搜Z用基于密度的聚类dbscan来处理一些数据,和P平台的开发者沟通后明确告知,由于平台底层的升级,平台的dbscan无法完成我们的任务,预计要3天实际修复。呵呵,过3天我的deal line都过了,老臣等不起!还好在平台找到另外二个基于密度的聚类方法,可以先去试一下,实在不行就只能自己写MR了。


数据服务

数据服务是相对简洁的数据产品形态,可能是几组归类好的数据服务列表、加一个比较标准化的服务接入框架。三方可以遵循标准发布自己的数据服务或内容服务,也可以通过接口调用的方法来使用平台上发布的服务。数据服务最大的挑战是服务粒度和可用性。用二个地址编码和逆地址编码的例子非常形象,地址编码的定义是输入文本地址描述(如你们家的门牌号)返回一个经纬度坐标点,这个定义数据服务非常容易。逆地址编码的定义是输入经纬度,返回一个地址文本描述,这个定义数据服务的难度就非常大。因为返回的文本地址描述的内容的可能性是非常丰富的。用户是想要门牌号地址还是小区地标地址,行政区是否要加上,邮政编码是否也需要,行政区的唯一编号是否要附加上,等等,各种应用场景有着不同的具体需求,是都放在这个服务中,还是需要再调用附加的服务。数据服务平台中最典型的数据服务是人群画像,这个是变现渠道广告和投放需要的基础数据服务之一,永远都是有钱的地方才有技术。


数据领域

数据领域服务是一种定形的数据产品形态,就像做搜索的、做广告推荐的、做互联网金融的同学从来不会去讨论数据产品这个命题,而是讨论领域业务场景中具体的算服务和功能,比如:ID映射、反作弊,圈人,反欺诈。似乎在这些用使用数据非常成功或者非常赚钱的领域,封装和完善数据产品给三方使用有点捡芝麻丢西瓜。但在通用智能飞速发展的今天,就如科大讯飞多年沉淀的技术壁垒在深度网络面前仅是一张A4纸的厚度,也许用数据平台或者服务平台构建生态也能成为一种的策略的选择。


当然还有另外一个选择,跳入AI的圈圈。


登录查看更多
0

相关内容

【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
领域知识图谱构建,115页2019著作带你学习KGC(附下载)
专知会员服务
82+阅读 · 2020年1月9日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
如何匹配两段文本的语义?
黑龙江大学自然语言处理实验室
7+阅读 · 2018年7月21日
五步帮你实现用户画像的数据加工
云栖社区
6+阅读 · 2018年2月4日
码农不识贝叶斯,虽知数据也枉然
Python开发者
6+阅读 · 2018年1月24日
可视化多维数据的艺术
论智
10+阅读 · 2018年1月23日
难?不难?机器学习套路就这三个!
聊聊架构
3+阅读 · 2017年10月25日
从逻辑回归到最大熵模型
夕小瑶的卖萌屋
4+阅读 · 2017年7月11日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
12+阅读 · 2018年9月5日
Large-Scale Study of Curiosity-Driven Learning
Arxiv
8+阅读 · 2018年8月13日
Arxiv
5+阅读 · 2018年4月30日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
领域知识图谱构建,115页2019著作带你学习KGC(附下载)
专知会员服务
82+阅读 · 2020年1月9日
相关资讯
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
如何匹配两段文本的语义?
黑龙江大学自然语言处理实验室
7+阅读 · 2018年7月21日
五步帮你实现用户画像的数据加工
云栖社区
6+阅读 · 2018年2月4日
码农不识贝叶斯,虽知数据也枉然
Python开发者
6+阅读 · 2018年1月24日
可视化多维数据的艺术
论智
10+阅读 · 2018年1月23日
难?不难?机器学习套路就这三个!
聊聊架构
3+阅读 · 2017年10月25日
从逻辑回归到最大熵模型
夕小瑶的卖萌屋
4+阅读 · 2017年7月11日
Top
微信扫码咨询专知VIP会员