樊景雪目前主要负责阿里品牌数据银行的数据架构,在 12 月 7 日召开的 ArchSummit 全球架构师技术峰会上,他会具体分享天猫团队在大数据处理方面的技术积累。
现在普遍认为,和流量运营相比,消费者运营存在诸多难点和痛点。从樊景雪的视角看,当前还处于从流量运营到消费者运营的转型期,前者运营的核心是渠道,通过广告、搜索等渠道将消费者引流到店铺进行购买,而后者运营的核心是消费者人群,通过细分人群进行分层运营,使用不同营销策略满足人群的差异化诉求,持续追踪并最终达到购买转化。这两套思路是完全不一样的,需要慢慢引导品牌或商家进行转型,这个是比较大的挑战。
品牌数据银行正是在这个转型过程中孵化出来的,主要应用在消费者运营场景中。它是一款面向品牌的数据 SaaS 化产品,帮助品牌沉淀线上线下和消费者的每一次互动,追踪品牌消费者的全链路状态,并在阿里巴巴的大生态体系内激活、应用,帮助品牌持续累积消费者资产,催化品牌与消费者关系。在今年双 11 中,数据银行就发挥了很大的价值。一般在双 11 前,品牌用户会使用数据银行进行大量预热蓄水,积累双十一可能消费的用户;在双十一期间进行广告营销,来促使用户进行购买;双十一后回流沉淀跟品牌发生关系的用户来持续跟踪,也可以用来进行营销活动评估。
在这些场景的背后,是涉及千亿级别数据量进行分析和应用,如何支撑这么海量数据的灵活处理,如何满足不同行业不同品牌的个性化数据诉求,这是一个很大的挑战。
传统的数据应用方式如 BI 报表、基于 cube 的交互式分析、Ad-Hoc 实时查询等,能解决部分场景,但都存在一定局限性。比如基于实时引擎的 Ad-Hoc 可以个性化查询,但不能有比较复杂的计算逻辑。再比如基于 BI 工具的交互式分析,一般是基于固定的 cube,无法让用户自由选择想要的数据。
而阿里巴巴品牌数据银行需要的是一种可以由用户选择哪些数据,比如浏览数据、交易数据等任意行为数据。除了数据外,还可以由用户指定数据处理逻辑,可以是简单查询、复杂 ETL 处理 (UDF、MR 等)、机器学习任务等方式中的一种或多种。这种让用户灵活定制的数据计算在阿里内部称之为触发式数据计算。其中针对消费者运营中最重要的人群领域,抽象出了一种业务引擎,叫 SML(Solar Model Language),对外提供一种 DSL 可以用来描述人群计算需求,可以是人群交并差,人群圈选,人群画像等。对内屏蔽了底层的异构的计算引擎,上层服务层只需要用 DSL 来描述业务逻辑,无需关心底层的计算引擎。具体的架构图如下图所示:
分析消费者数据的数据平台架构
SML 抽象了人群领域各种操作,封装为算子,比如人群交并差、人群圈选、人群画像、人群抽样、人群放大等算子,也将消费者各种属性和行为数据数据抽象为标签和人群等实体,通过实体和算子的组合来描述上面的业务需求。比如:可以通过人群圈选算子 以及 标签实体 就可以完成圈人,下面这段 SML 代码就是圈选男性用户:
O1 = otag "gender";//otag 代表是一个属性标签,这里是定义一个叫性别的属性标签
D1 = filter O1=1; // 通过圈选算子 (filter) 就可以一个属性标签为男性 (假设 1 代表男性) 用户
SML 主要解决的问题是对消费者 (人群) 领域的分析和应用,这方面的工作对很多营销端和消费者分析的系统都用通用意义,比如 dmp 和 cdp。SML 最大的能力是通过封装的算子能力和数据能力可以组装成很多个性化分析,甚至可以让用户来定制,不需要每次有需求场景都垂直化开发,大大提高了人效。
目前 SML 已广泛应用于品牌数据银行、策略中心等阿里巴巴数据产品,落地场景包含人群分析、人群圈选、人群画像、人群建模等,满足品牌商 / 商家对人群运营的个性化诉求。
一直专注于数据研发领域,包括数据清洗、数据 ETL、主数据管理、数据服务等,有丰富的基于数据的 PaaS 和 SaaS 平台的研发经验,先后分别担任阿里大数据 PaaS 平台<御膳房>数据服务和 SaaS 平台<品牌数据银行>数据架构负责人。
12 月 8 日下午,ArchSummit 架构师峰会“大数据智能处理”专题,除了樊景雪之外,来自美团、Hulu、京东的技术专家也会分享各自场景内,基于数据的智能处理研究。参会联系灰姑娘 17326843116