实时数仓赋能金融业务的落地实践

2022 年 7 月 24 日 专知



分享嘉宾:施兴天 众安保险 数据高级总监

编辑整理:宋思澈 厦门大学

出品平台:DataFunTalk


导读:家好,我是来自众安保险的施兴天,我今天分享的题目是《实时数仓赋能金融精细化智能运营的落地实践》,介绍会围绕下面五点展开:

  • 众安保险介绍

  • 众安数据中台介绍

  • 众安集智平台介绍&案例介绍

  • 实时数仓建设与StarRocks的引入

  • 众安科技与科技赋能解决方案介绍

01

众安保险介绍

众安保险2021年全年的保费达到了200亿人民币,从规模来看达到了全国财险公司的前十,对众安这家非常年轻的保险公司来说,成长还是比较快的。

众安保险在健康险领域,有百万医疗险,一年只需几百块钱就可以保600万或者是更高的保额;在数字生活领域,有大家比较熟悉的退货运费险,还有航空延误险;在消费金融领域有信用保证保险。

众安保险是一家非常互联网化的公司,人员构成上看,工程师技术人员占比达到了50%左右。虽然人数上无法和电商公司相比,但业务上产生的数据量级以及相应所需的数据处理能力还是比较高。

02

众安数据中台介绍

1. 众安数字化框架4633

众安的数字化框架简称4633,主要架构分为4层:应用、算法、平台、保障。在数据建设过程中,传统的数据公司可能主要会关注性能,比如数据的吞吐量、查询效率等,而众安的数据团队比较强调实际应用,因此比较强调应用和算法这两层框架。

① 应用

应用就是能够产生业务价值的方向,这里称作叫加减优拓四个方向——加增量减损培优运营拓市场。

以“加增量”为例,公司通过在信息媒体上进行广告投放获客,数据团队则利用数据基建,如横向数据,优化整个获客流程,本质是优化转化漏斗,从而对公司业绩产生增量。

“减损赔”方面也是保险较为关注的,比如核保核赔、反欺诈,数据团队通过跑模型产生理赔规则,减少不合规的赔付。

② 算法

以上提到的这些功能需要落实到“算法”,在算法方面我们提出了六个不同的这个能力——识别、预测、分群、优化、认知、风控。比如,我们关注客户从哪里来,要到哪里去,经营过程应该用什么样的平台,用户产生什么样的动作能够带来最大的收益,这些都需要我们算法能力方面的沉淀。

③ 平台

围绕着整个数据链路的加工及它的价值增量,分为了数据处理、商业智能、机器学习三部分内容。

④ 保障

整个数据团队建设强调管理导向,人才培养向综合化发展,算法同学不仅仅只是一个算法专家,也可能是算法加业务加分析的专家。我们通过管理导向、流程制度、人员培养等打造众安的数据团队。

2. 众安数字化路径

从业务角度来看,众安的数据团队在做三件事。

① 运营:从看见到预见

第一件事是运营,让整个公司的运营更加数据化智能化。首先采用可视化方式去了解“发生了什么”;其次通过归因分析了解“为什么发生?”,这里需要注重高效归因,怎样利用大数据和实时数仓的数据去做业务决策,减轻分析师、业务人员的负担;更进一步我们关注“未来会怎么样?”,这时候则需要做业务的预测,基于预测去调整业务。

② 经营:从名单到客户

第二件事是经营,首先是从人群当中发现潜在的客户,解决“客户是谁?来做什么?结果如何?”这几个问题;其次是判断现有客户能不能产生附加价值,最大化客户全生命周期的价值。

③ 模式:从运营到创新

第三件事情是模式,我们希望通过算法模型和基建大数据去做模式的创新。

比如流程创新,目前我们的大部分理赔可以在短时间内完成,没有人工介入,这个过程就涉及到了很多AI算法模型和实时计算,比如特征选取、反欺诈外部数据调用、模型判断、理赔规则生成等。这里并非强调我们的算法模型的超高准确性,或者数据处理量级的高度,而是我们通过实时计算、模型算法等技术去创新理赔业务流程,使得这个流程变得更加的迅速,让用户有最佳的体验。

在产品创新上,比如我们想做宠物险这一产品,就是对宠物的保障,那我们要怎么确定理赔发生时的宠物是当时保的宠物?这里面的反欺诈风险其实非常高,那怎样去做这类保险产品的创新,也是一个待解答的问题。最后是模式上的创新,整个众安的数据团队都在不懈努力的去做了这样一件事。

今天主要和大家分享最基础的运营侧,虽然基础,但是它实际上占据了整个公司运转当中非常重要的部分。接下来我将从运营的角度去介绍我们数据应用情况。

3. 众安数据中台介绍

接下来介绍众安的数据平台,平台基本上延续了4633的四层架构。主要分为两个部分,一部分是底层的集智平台,这个系统集合了数据处理、机器学习、数据治理的工作,统一了数据链路,减少繁复的数据传输拷贝工作,简化数据全生命周期的维护工作。

另一部分包括公域获客、私域运营的一些系统,主要是为了支持前端营销平台的建设,比如客户标签、行为分析等。

这是我们的数据中台的整体概览,接下来进入集智平台的介绍。

03

集智平台介绍&案例介绍

在进一步介绍集智平台之前,我想强调的是“多场景融合的精细化分析是数字化转型破局的关键”。这里涉及两个关键词:“多场景融合”、“精细化”

举个例子,抖音快手是大家休闲娱乐的短视频平台,其中会有很多的广告投放。假如用户在某一平台上看到了我们的一款保险产品的短视频广告,当他比较感兴趣时则会点击进到我们的落地页,看到产品的更多介绍,进一步可能会有购买行为。对这样包含一系关联行为的场景,用户的转化漏斗较长,如果我们只看整体的GMV指标,或者保费指标,肯定是不够的,因此我们关心的指标包括:投入多少?带来多少曝光?多少点击?多少跳转…… 

上述场景涉及不同的系统,有外部系统也有内部的,内部系统又分为核心业务系统、运营系统、投放系统、财务系统等,涉及到多场景的用户数据,分散严重。众安的数据中台要做的就是集合这些数据,数据团队所关注的就是数据集中的能力和效率。

接下来我想要说的是,数据能力要往业务层扩展。如果仅仅靠数据分析师做报表,而业务层不够理解,工作则无法持续推进。

1. 集智平台介绍

基于上述问题和挑战,我们需要一个全链路、智能化、可扩展的数字化经营体系,它面向的不仅是分析师,还有不同事业部不同职能的员工,他们看数据的颗粒度都不一样。比如,数仓管理人员是按周或按日维度,一线运营同学可能是小时级甚至分钟级,风控同学则要求数据的实时性,产品同学可能需要过去三五年的历史数据,去研发一套新的保险产品。

面对不同的数据需求,分析的粒度也各不相同,那么怎样更加高效地完成分析,而不是做重复的工作。那就需要数据平台的细粒度、强实时性、高效能。

2. 三个核心模块

我们的核心模块是:发生了什么,为什么发生,未来会怎么样。要解答“发生了什么”,要去做多维可视化,这就需要数据粒度细、响应达到秒级,在此基础上可以做各种聚合。

第二块是一些既定的分析,比如为什么某个指标会变动30%?业务人员会问,老板也马上要问。通过做保费的拆解、成本的下钻、营销转化漏斗的分析,判断变动原因是市场变化、还是运营策略变化、还是竞品的变化,这其实都是数据变动的归因分析。

3. 平台的核心处理器

前面提到我们的平台需要处理多场景的数据,比如埋点数据、广告投放数据、财务数据等,怎样同步不同数据源的数据、保障更新速度,则是我们在设计数据平台较为关注的问题。

针对这一问题,我们做了很多连接组件,可以更快地连接内外部的数据。还有一个轻型的同步工具,使得预处理后的数据能够快速被同步到实时OLAP引擎当中。此外,我们也做了统一的OLAP引擎层,屏蔽掉了很多技术细节,让运营、企划、理赔的同学能够通过各种终端方式去查询数据,了解到数据为什么变动。

上图是众安数据体系的框架图。

4. 广告投放场景

接下来以广告投放场景为例,展示我们整个数据工作流。我们的外部数据源包括抖音快手百度腾讯,通过监测连接去获取这些外部数据。内部数据包括用户数据和业务数据。接下来通过快速的连接组件同步工具,达到一键可视化的效果。此外,更高阶的自主探索分析,比如广告的展示点位是否会影响投放效果,保费理赔情况等也是我们关注的。

5. 实时效果追踪

面对众多的业务需求,要做到快速响应,对平台的数据实时性要求较高。比如,基于flink的实时数据流、流批数据整合,实时录入OLAP引擎,实时报表开发等。在我们的集智平台当中,这种实时数据流的处理感受跟离线数据其实是一样的,因为技术团队已经将很多技术细节屏蔽掉了。

04

实时数仓建设与StarRocks的引入

接下来介绍集智平台的实时查询引擎的变化情况。

1. 集智平台原系统架构

首先展示原来的集智平台技术架构,比较核心的是离线和实时两个处理链路。在OLAP引擎层,经过一些探讨和尝试,我们选取了以ClickHouse为主的OLAP查询层。之后输出到应用层,比如数据API、报表或者多维分析等。整个链路还是比较高效。

2. ClickHouse vs StarRocks

① 问题与现状

随着业务更加深入,我们发现ClickHouse存在一些问题,主要是数据平台的用户量上升所导致的。

某个业务线可能有300名分析和业务人员需要看报表,比如实时大屏场景,用户采用不同终端,大屏数据每10秒刷新一次,每次刷新可能会同时查询100个请求,这就导致平台性能退化非常严重。一般来说,一页看板往往有6-8个图表,多并发查询场景下,平均响应时间退化4倍左右,影响看板首屏加载时间。

另外一方面是多表关联,基于OLAP引擎的实时能力去做多表关联的时候,单个查询就变成十秒以上。面对这些性能问题,以前可以通过缓存等方式解决,但当数据量很大的时候,还是存在本质的问题。

第三部分的问题是运维方面。第一,多副本模式的元数据管理严重依赖于ZooKeeper,排查和运营成本相对比较高。本身也不支持事务性的DDL、DML的操作,需要数据同学做一些额外工作。第二,ClickHouse缺少自动resharding机制,横向扩容需要借助三方工具或者手动操作,不够自动化。

最后,ClickHouse不支持真正意义上的数据更新和删除,主要还是用的Replacing引擎,Merge-on-Read性能差。

面对上述问题,我们最终采取了StarRocks来弥补不足。它解决了三个核心的问题,第一个问题是多表关联,第二个问题就是一个并发查询,第三,整个更新操作、运维操作也相对简单。

② 性能比较

图中是两者的性能试验结果,在单表无并发的情况下,StarRocks与ClickHouse的性能是差不多的,到了多表关联多并发场景下,SR是存在显著优势的。

当然,SR的写入性能存在一定不足,尤其是在批量数据导入的情况,关于这点我们也在持续与SR团队进行沟通。

这里想和大家分享的是,数据系统有它的发展阶段,要想让工具更好地服务于公司,还是要分析使用场景。

③ StarRocks场景介绍

在广告投放场景中,实时性的要求非常高,数据链路较为复杂,可能包含七八个节点。

以往通过clickHouse加上Replacing Engine进行查询时,需要10s以上的响应时间。此时,业务同学会有抱怨,有时可能需要暂停业务动作,等数据出来再去推进工作。

之后我们选择了Flink on StarRocks的架构,结合众安的集智平台,性能提升了3-5倍。

今天主要和大家分享了,众安数据团队如何通过更精细化、更快速高效的的报表分析系统搭配引擎,解决运营当中的数据分析问题。

05

众安科技与科技赋能解决方案介绍

最后用一分钟的时间介绍众安的科技赋能情况,我们利用积累的科技经验对金融赋能,同时向外进行推广。众安科技围绕“科技驱动业务数字化转型升级”的目标,希望将我们的数据类、营销类的产品往外推广。上面介绍的集智平台也是整体科技战略中比较重要的一条线。除此之外,众安科技还是会有运营、营销等平台,这里不一一介绍了。整体来说,众安希望打造体系化、产品化的软件平台,在更好地服务内部的同时,也能够去赋能到整个保险和金融行业。

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“AI与金融” 就可以获取AI与金融资料大合集》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
0

相关内容

102页pdf!《自动驾驶卡车量产》白皮书
专知会员服务
58+阅读 · 2022年9月2日
智能决策技术在汽车行业的应用实践
专知会员服务
39+阅读 · 2022年8月20日
无量深度学习系统在腾讯推荐类业务的应用
专知会员服务
20+阅读 · 2022年7月9日
企业数据治理痛点与阿里巴巴数据治理方案
专知会员服务
44+阅读 · 2022年7月4日
京东科技肖楠:基于金融场景的事理图谱构建与应用
专知会员服务
40+阅读 · 2022年6月17日
实时数据湖在字节跳动的实践
专知会员服务
29+阅读 · 2022年5月28日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
《华为云金融行业 保险全业务上云解决方案》18页PPT
专知会员服务
15+阅读 · 2022年3月23日
英特尔《中国金融行业AI 实战手册》,56页pdf
专知会员服务
37+阅读 · 2020年11月8日
实时数据湖在字节跳动的实践
专知
0+阅读 · 2022年5月28日
从阿里核心场景看实时数仓的发展趋势
阿里技术
0+阅读 · 2022年1月11日
双11实时物流订单最佳实践
阿里技术
0+阅读 · 2021年11月30日
李庆敏:腾讯游戏大数据分析引擎实践
专知
3+阅读 · 2021年11月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年9月19日
Arxiv
16+阅读 · 2022年5月17日
Arxiv
27+阅读 · 2020年12月24日
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Arxiv
19+阅读 · 2019年4月5日
dynnode2vec: Scalable Dynamic Network Embedding
Arxiv
14+阅读 · 2018年12月6日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
102页pdf!《自动驾驶卡车量产》白皮书
专知会员服务
58+阅读 · 2022年9月2日
智能决策技术在汽车行业的应用实践
专知会员服务
39+阅读 · 2022年8月20日
无量深度学习系统在腾讯推荐类业务的应用
专知会员服务
20+阅读 · 2022年7月9日
企业数据治理痛点与阿里巴巴数据治理方案
专知会员服务
44+阅读 · 2022年7月4日
京东科技肖楠:基于金融场景的事理图谱构建与应用
专知会员服务
40+阅读 · 2022年6月17日
实时数据湖在字节跳动的实践
专知会员服务
29+阅读 · 2022年5月28日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
《华为云金融行业 保险全业务上云解决方案》18页PPT
专知会员服务
15+阅读 · 2022年3月23日
英特尔《中国金融行业AI 实战手册》,56页pdf
专知会员服务
37+阅读 · 2020年11月8日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
相关论文
Arxiv
0+阅读 · 2022年9月19日
Arxiv
16+阅读 · 2022年5月17日
Arxiv
27+阅读 · 2020年12月24日
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Arxiv
19+阅读 · 2019年4月5日
dynnode2vec: Scalable Dynamic Network Embedding
Arxiv
14+阅读 · 2018年12月6日
Arxiv
22+阅读 · 2018年8月30日
Top
微信扫码咨询专知VIP会员