蚂蚁金服付志嵩:数据膨胀?关系复杂?如何升级图数据库?

2021 年 11 月 23 日 专知



分享嘉宾:付志嵩 蚂蚁集团 资深技术专家

编辑整理:Hoh

出品平台:DataFunTalk


导读:本次分享主题为图数据库在金融领域的应用,主要介绍蚂蚁金服在金融科技领域的一些图技术应用探索和思考,将围绕下面几点展开:

  • 金融科技领域技术架构演进

  • 数据智能时代的新挑战

  • 蚂蚁金服在图存储方面的实践

  • 蚂蚁金服在推进图技术标准方面做的努力

  • 图技术未来展望

01
金融科技领域技术架构演进

1. 第一阶段:业务数字化

这个阶段主要是借助计算机技术把线下业务搬到线上开展,如支付业务从线下支付改到了现在的在线支付,另也还有很多业务逐步从线下搬到线上,这个其实是一个数字化的过程。

2. 第二阶段:数据驱动

这阶段主要通过对积累的数据进行分析,在分析的基础上协助我们更好的做一些业务决策,从而进一步驱动业务发展,这阶段出现了扫码支付、余额宝、花呗等等一些相关业务。

3. 第三阶段:数据智能

在积累的大量数据基础上通过智能化方式进行数据挖掘,进一步通过数据发现新的业务模式,真正做到智能化数据驱动业务。

02
数据智能时代的新挑战

1. 业务种类多

业务种类越来越多,蚂蚁有超过1000种类型的生活服务,几百万以上小程序,这使得业务极其复杂,进一步提高对复杂数据数据处理能力的要求。

2. 业务数据量大

蚂蚁金服每天产生超千亿数据,双十一交易量峰值时用户交易达每秒40万笔+,其背后的数据量更是远超这个数值,对我们峰值数据的处理能力提出了很大的挑战。

3. 计算复杂

复杂不只是体现在数据量大上,也体现在数据的群体性和聚集性越来越明显,这就需要数据处理时对数据的各种关系做进一步深入挖掘,才能获得有价值的数据,这使得数据计算变得更为复杂。

4. 快速决策

业务决策对数据的要求从离线、准实时、基本到转到了实时。比方说风控场景,蚂蚁提出来310模式,3分钟申请贷款,1秒钟批准0人工干预,在这个里面你就可以看到,基本上所有的决策都是实时的。

5. 技术应对方案

应对上述挑战,在技术上需要做两方面的升维:

① 数据存储结构升维演进

在大数据时代前是传统数据库,到了大数据时代开始出现KV存储、noSQL数据库。

典型案例就是KV存储,主体描述场景下KV存储可以使查询性能、吞吐量都非常的高,接着逐渐发现光有描述不行,随时间变化主体信息会变,这时就需要加上时序这个维度,紧接着又发现单一维度的描述不足以充分描述一个主体,我们需要更多维的信息,这时就需要通过图存储来实现,实现之后,我们发现因为各个维度均有可能产生变化,进一步导致图也会随着时间变化,这样就了时序图的存储的需求。

② 计算范式升维

随业务演进需求从离线计算、准实时计算到需要实时计算即刻出结果。

场景介绍:如在风控场景原来只需通过离线处理实现,现在需要实时就发现风险,并实时进行处理,因为风控模型和反欺诈策略有可能很快就失效了。另一场景贷款审批场景,就是上述的蚂蚁的310模式,也需要在实时计算支撑下才能实现。

03
蚂蚁金服在图存储方面的实践

1. 图智能介绍

从传统的图多维关系计算,上升到目前提到的图智能,图智能是我们认为在金融科技方面最核心的基础知识。

图智能它包括实时图计算、时序图分析、深度图推理等,这些如果需要获得高性能,那么它们就需要构建在一个高性能的图存储基础之上,高性能图存储,在满足存储大量的图数据基础上还能够提供更高效的图查询和图计算。

2. 实践中的现实问题

面对蚂蚁金服这么大的数据体量和这么复杂的业务,在落地时遇到了很多现实的问题:

  • 数据膨胀:不仅是数据维度的膨胀和数据量的膨胀,还包括了数据复杂关系的膨胀。

  • “环环相扣”:数据间的关系链路根据复杂,层次更加深,如之前的风控策略规则在图中可能在2-3层就能找到,而现在需要6层甚至7层才能找到一个合适图规则,才能防范一些风控事件。

  • “一言难尽”:图上的数据关联多样,关系复杂,对用户来说在图上进行开发难度比较大。

3. 技术突围

蚂蚁金服构建了一个金融级分布式图数据库,提供高性能查询分析能力和多维时序图查询能力,并且能够支撑海量的数据存储,另外还提供了很好的易用性,能在图开发过程中支持所见即所得。

4. 技术风向标

图技术研发方面图数据库是一个非常热门的领域,Gartner给出的报告,就图计算和图存储应用预计到2022年之前会增加一倍,DB-Engines上可以看到图数据库的受欢迎程度远远领先其它类型数据库。

5. GeaBase介绍

全称:Graph Exploration and Analytics Database

定位:大规模分布式实时图数据库

设计目标:满足超大规模复杂关系网络在线上环境中高并发和低延时的读写及分析需求高可用性,强一致性,高扩展性。

  • 数据 CRUD

  • 查询 GQLGremlin

  • 分析 FindLoopShortest pathCommunity DetectionLabel Propagation

主要特性:

高性能分布式架构:

GeaBase高性能分布式架构,从逻辑上看是一个存储计算分离架构,从用户客户端到计算引擎,再到存储引擎。

GeaBase计算引擎除了传统两层间乒乓式调度模式外,还可以在存储节点间进行通信,差别主要在于,一般图数据库,它的模式是从客户端发一个请求到一个计算引擎,然后这个计算引擎和这个存储引擎之间会反复的通信。过程就是去拿数据做计算,然后再拿数据再做计算,而GeaBase当一个查询过来,GeaBase计算引擎把这个数据请求交给了存储引擎以后,存储引擎会根据需要,再把这个请求发到有数据的这个存储引擎去,然后由它的计算引擎做计算。通过这样的操作,形成一个网状的结构,这样的处理总的目标就是为了降低整个图计算里面交互次数,从而达到降低延时和增加吞吐量的目的。

6. 蚂蚁金服的应用实践

① 社交应用场景:

蚂蚁森林:看上去通过简单的浇水种树,收朋友能量,获取积分然后兑换积分在物理世界种下一颗真实的树,这个过程涉及到好友间的交互、人和树的交互、人和系统间的交互。事实上在这背后存在大量复杂的图数据结构,并且在这个场景里面就已经有万亿边的规模,同时点和边上都有非常多的属性,我们还需要在这个多维关系下做到毫秒级响应,毫秒级的生产信息更新。

② 金融应用场景:

刷单诈骗:刷单会有组织者,背后有一堆执行刷单的人,一般他们都用匿名信息来进行操作,所以在事后很难找到这些人。像这样的诈骗操作,我们需要在诈骗行为发生的当下,就发现这个诈骗行为,然后扼杀在摇篮里面,这样就需要有一个非常实时的决策系统来支撑。

信用卡套现:最基本原理就是一个人用信用卡从商户购买一个东西,然后通过转换回到购买者手中,上图是一个三角形,其实做了非常大简化。在实际场景里面,他可能有非常多的转账和交易,最后这笔资金才会通过现金的形式,再回到这个购买者手中,这个过程其实是非常复杂的。我们想要发现这个操作,就需要我们实时的从当前这笔数据里就能找到相关信息,从而实时的阻断这个有可能是套现的一笔交易,因为支付无时无刻不在发生的,这样我们需要快速的更新这个图,在更新图之后又要快速的在基于新图基础上,去构建新分析和新的查询。

04
蚂蚁金服在推进图技术标准方面做的努力

我们认为在金融科技这个领域,图技术是未来最重要的一个发展的方向,我们希望和相关技术公司和相关制定标准的部门一起来打造一个好的图计算、图技术生态,所以蚂蚁金服也会积极的参与到各种标准的制定里面。我们希望通过标准的制定来让图生态更加完善,让图技术普惠到更多的公司和人,不仅仅是金融科技行业公司,也希望让所有的公司和技术爱好者都能够很容易的接触到这个技术,很容易的应用这个技术。

  • 国际标准:和国际标准组织ISO/IEC,组织制定了Graph Query Language,希望能够制定出一个查询图的标准。我们认为这是未来图技术能够普及的非常重要的一环,因为现在其实图的查询语言可以说是四分五裂的。这里面有非常多的不同的查询语言,有各个公司自己定的一些查询语言,也有一些用的稍微更广泛一点,或者说开源的一些查询语言。但是这些查询语言并没有形成非常统一标准和规范,从而让用户在选型上,也是非常困难,这样就会非常大的阻碍图数据库和这个图计算技术的发展所以我们希望通过这个合作能扫清这个发展的障碍。

  • 国家标准:和全国信息技术标准化技术委员会一起做了《图数据库系统技术要求》。

  • 行业标准:和信通院、通信标准化协会、全国金融标准化技术委员会做了《图数据库白皮书》和《图数据库技术要求与测试方法》等等,我们希望和全行业一起来,来普及这个图技术。

05
图技术未来展望

更大:数据会更大,图的规模会更大,这个对存储和计算能力提出类更高对要求。

安全:在数据的收集、存储、使用方面能更加规范和安全。

更快:信息关联越来越复杂,关系层次越来越深,但决策的要求却越来快。

底座:满足上述要求,期望能通过图技术的发展,让一张图就能成为整个金融科技的技术底座。

06
精彩问答

Q:什么是时序图?

A:是指图随时间动态变化的,不同时刻图的构成不一样。

Q:时序图在企业中有哪些应用?

A:在金融公司的实时风控场景有应用。

Q:当前GeaBase有实现时序图吗?

A:已经实现了。

Q:GeaBase 有没有对金融场景有特别的设计和优化?

A:GeaBase对金融场景特别的设计和优化,目前主要体现在稳定性上,我们在设计一致性,数据容灾的一些功能上,会有更多的考虑和更多的优化设计。

Q:知识图谱的知识计算和图技术有什么区别?

A:图技术是知识图谱的一部分,知识计算肯定是用到了图技术,比如我们前面讲的图推理上面的一些推理计算,在知图谱中用的比较广泛。

Q:GeaBase线上生产环境最大的图的规模有多大,支持多图吗?

A:现在环境最大的图的规模,最近两年没注意统计,但前两年就已经超过万亿了。



分享嘉宾:


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“SG238” 就可以获取图数据库专知资料》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

图形数据库是NoSQL数据库的一种类型,它应用图形理论存储实体之间的关系信息。
数字建筑发展白皮书(2022年)
专知会员服务
41+阅读 · 2022年4月1日
《华为云数据库在金融行业的创新与探索》华为26页PPT
专知会员服务
12+阅读 · 2022年3月23日
《华为云金融行业 保险全业务上云解决方案》18页PPT
专知会员服务
15+阅读 · 2022年3月23日
王晓伟:图神经网络在快手推荐召回中的应用和挑战
专知会员服务
25+阅读 · 2022年3月23日
AI 参考架构及其在金融行业的应用,IBM12页pdf
专知会员服务
51+阅读 · 2022年3月23日
数字化转型白皮书:数智技术驱动智能制造,42页pdf
专知会员服务
174+阅读 · 2021年7月8日
专知会员服务
64+阅读 · 2021年4月27日
专知会员服务
189+阅读 · 2021年3月22日
图机器学习在度小满风控中的应用
专知
2+阅读 · 2022年2月12日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
从阿里核心场景看实时数仓的发展趋势
阿里技术
0+阅读 · 2022年1月11日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Table Enrichment System for Machine Learning
Arxiv
0+阅读 · 2022年4月18日
Arxiv
14+阅读 · 2021年3月10日
Arxiv
24+阅读 · 2021年1月25日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关VIP内容
数字建筑发展白皮书(2022年)
专知会员服务
41+阅读 · 2022年4月1日
《华为云数据库在金融行业的创新与探索》华为26页PPT
专知会员服务
12+阅读 · 2022年3月23日
《华为云金融行业 保险全业务上云解决方案》18页PPT
专知会员服务
15+阅读 · 2022年3月23日
王晓伟:图神经网络在快手推荐召回中的应用和挑战
专知会员服务
25+阅读 · 2022年3月23日
AI 参考架构及其在金融行业的应用,IBM12页pdf
专知会员服务
51+阅读 · 2022年3月23日
数字化转型白皮书:数智技术驱动智能制造,42页pdf
专知会员服务
174+阅读 · 2021年7月8日
专知会员服务
64+阅读 · 2021年4月27日
专知会员服务
189+阅读 · 2021年3月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
相关论文
Table Enrichment System for Machine Learning
Arxiv
0+阅读 · 2022年4月18日
Arxiv
14+阅读 · 2021年3月10日
Arxiv
24+阅读 · 2021年1月25日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
15+阅读 · 2018年2月4日
Top
微信扫码咨询专知VIP会员