蝶变:一场正在影响企业数据洞察力的图数据库变革

2020 年 8 月 13 日 InfoQ
 图数据分析能力正在成为“标配”,从技术人员到业务人员,从一线员工到管理层,图分析能力都在潜移默化中改变着企业对数据的洞察力。

今天,云计算与大数据在各领域下的不断融合催生了愈加丰富的应用场景,为各类业务带来了更多联系。在大数据和 AI 技术深度融入企业业务的背景下,企业需要面对如何从海量数据中挖掘出内在的复杂关系与潜在价值,从而提前洞悉商业趋势、推动业务科学决策的关键挑战。

为了应对这样的挑战,企业不断投入资源来强化 IT 基础设施,试图找出隐藏在平凡数据中的珍贵秘密。然而,传统的关系型数据库和观察研究方法在这样的场景中很快遇到了自身的瓶颈。行业需要更直观、更符合自然规律的分析技术,图分析也因此应运而生。

图是对现实世界的抽象,它通过点和边来描述实体之间的关系,构成一个大型语义网络,提供一种从关系的视角来观察世界的直观方法。所谓图分析,就是基于图的方法从大量数据中识别关键数据,利用关系和深度分析数据的技术。这是一种全新的观察视角,帮助企业从更接近数据本质的层面上洞察世界。从思想到实践层面,图深刻改变了企业对数据的洞察力。

1 打造全新的数据思维模式

当前,众多互联网巨头都在从关系角度来重新理解各自的核心业务,试图从中发现新的应用和创新点。例如,谷歌将网站之间的关联构建成了知识图谱,用于提升用户的搜索体验;Linkedin 构建了职业图谱,以便快速查看职场联系;亚马逊从客户的行为及商品供应链的信息中构建了客户和供应链图谱;电信巨头 Verizon 则基于用户的通话情况构建了电信网络图谱,等等。

毕竟企业自身就是一个复杂系统的集合。在企业中往往存在大量业务数据,如员工、供应商、合作伙伴、原材料、时间、地理位置、业务流程……类别多种多样;这些数据表面看起来毫无关联,但背后往往隐藏着复杂的关系。如果我们能利用图分析技术,从关系的角度发现它们之间是如何关联、如何影响、如何依赖、如何作用的,我们就能挖掘出一些新的业务解决方案,产生一些全新的价值。

在 TigerGraph 解决方案工程师鲍翰林看来,图分析的优势可以概括为 4 个方面:

  • 首先是多维度。传统的归类总结方法只会罗列出数据表面有限的几个维度,但数据之间是天然就存在联系的,不同维度之间存在多种关系。尤其是在今天数据来源复杂的情况下,企业往往需要跨多维度的业务分析海量数据。此时就需要基于图的思维方式,在数据探索过程中找到更多关系维度,从而发掘出数据间更深层次的联系。

  • 其次是全局思考。企业对待数据原有的思考方式大多局限在某个部门、某条业务线,甚至是某一个场景之下。如果我们能将所有数据连接起来,就可以在从前期接触用户到后期售后的完整业务生命周期中,从公司整体的业务角度出发进行数据分析,不再局限在某一个业务域之下。

  • 第三是易解释。在企业内部组织架构之中,研发人员会经常与“用户”,也就是业务人员打交道,这两类人群本就不在同一维度之下。数据分析工作需要让不同维度的员工快速理解数据含义,就要缩短沟通路径、降低沟通成本。针对一组数据,如果用图分析的方式直接去画信息之间的连接方式,业务人员和研发人员就非常容易理解;但如果用表的方式沟通,业务人员和研发人员之间的交流成本就会非常大。

  • 最后是灵活性。传统的数据结构都是基于表构建的,这种结构很难更改和优化。但是现阶段业务变更频率非常快,往往需要对数据结构进行快速且频繁的调整;基于图的数据底层结构具备很强的弹性,就能让开发人员快速修改数据结构。

2 现有图数据库的缺憾

与传统关系型数据库相比,图数据库在分析和回答海量数据中复杂的数据关联问题上具备明显优势。但是面对日益增长的数据实时响应需求,市面上多数图数据库方案却难以加载海量数据,无法提供令人满意的图遍历速度,并且无法快速导入实时数据,在实践中通常限于两步的实时遍历。当今企业因为业务需要,往往要求图数据库能够实时做到更深层次的浏览和分析,从而发掘并预测愈发错综复杂的关系。但每增加一步的同时,也意味着会揭示更多连接和隐含的关系,对数据库的性能表现带来更大的压力。

另一方面,行业的快速发展也在驱动着各类角色对于数据分析能力的迫切需求。传统的数据库主要面向专业的运维人员,使用门槛非常高。但更加接近业务的一线人员以及企业管理层,往往需要通过数据来发掘出更多隐藏起来的关系;数据库的高使用门槛,意味着他们难以通过数据来快速获取与业务决策相关的数据特征,这种矛盾的局面是企业不希望看到的。

任何能力都需要以工具为载体来实现,图也不例外。从企业数据的探索到解决方案的迭代,整个过程中都需要高效、易用、安全、稳定的工具来提高企业及员工的生产力和效率。然而,现有的大多数图数据库解决方案都无法在这四个维度上都给出令人满意的答案。直到今天,TigerGraph 3.0 图数据库的面世,终于让苦苦等待完美方案的企业看到了曙光。

3 TigerGraph 3.0,为图数据库行业掀起蝶变

作为世界上第一款既能原生存储图数据,又支持分布式计算的图数据库,TigerGraph 是图数据库行业发展的一个里程碑。TigerGraph 自主开发了革命性的原生并行图(NPG)技术,支持遍历 10 步以上并执行复杂分析的查询,具备亚秒级响应能力,可以轻松访问和计算具有千万级实体 / 关系的查询。TigerGraph 使用的 GSQL 查询语言是高性能图分析的优选,还提供了完整的在线备份、离线恢复和运行监控系统,保证了企业级的稳定和可控性。在安全性层面,TigerGraph 的用户权限控制与多图支持、静态存储与传输过程加密等功能为企业免除了后顾之忧。

零代码

在此基础上,2020 年全新推出的 TigerGraph 3.0 首次实现了零代码的可视化图分析能力,从根本上降低了图数据库的使用门槛,解决了企业在图数据库应用推广中面临的易用性困局。其中,TigerGraph 3.0 的 Visual Query Builder 让所有人都可以通过拖拉拽的形式创建图查询。TigerGraph 解决方案工程师林选磊提到了 Visual Query Builder 的一些明显的好处。

  • 首先是直观,企业的业务人员和开发人员都能轻松理解 Visual Query Builder 的页面逻辑,极大降低了企业内部的沟通成本;

  • 其次是快速,通过简单拖拉拽的形式就能完成一个查询。通过 Visual Query Builder ,企业能获得快速的开发与数据探查能力,大大节省了数据分析人员的时间,使企业能够频繁试错而不至于增加太多成本;

  • 第三是学习成本极低,用户不写代码就能完成查询,对新手非常友好。开发人员也能一键了解查询背后的 GSQL 代码,学习相关知识。

此外,TigerGraph 3.0 的 GraphStudio 完全支持可视化多图操作,并加入了用户管理和许可证管理等功能,避免了许多不必要的后台流程。通过零代码技术降低图数据库应用门槛的同时,TigerGraph 3.0 还引入了用户自定义索引功能,满足企业对性能的更高需求。

用户自定义索引和 GSQL 改进

企业应用图查询时最常见的是从单点出发向外扩散的场景。这类查询在 TigerGraph 图数据库中的效率极高。但企业中也存在一些基于某个属性的查询,传统的遍历方式性能会非常低。针对这一痛点,TigerGraph 3.0 引入了用户自定义索引,可以理解为关系型数据库中的二级索引。这种基于属性过滤的查询可以明显提升性能,在 6 亿的顶点中提取 800 万以内的顶点的数据时,查询速度会有 15 到 50 倍的提升。TigerGraph 3.0 对 GSQL 语言也做了改进,带来了联合模式匹配、Per 语句和类型灵活的查询几大功能,提升了开发者的生产力,并改善了团队的协作能力。

最后,TigerGraph 在安装、运维、迁移和备份等方面也做出了诸多改善。所有这些进化,让图数据库在高效、易用、安全和稳定四大指标上都来到了全新的高度。即便 TigerGraph 3.0 还称不上完美,但也足以满足大多数企业对图数据库的苛刻要求,为他们带来真正成熟可靠、值得信赖的图分析解决方案。

4 图数据,正在发生蝶变

从只是简单地增删改查到数据分析,从数据的表面联系到多维度数据间的深度遍历,数据的价值正在一点一点被挖掘出来。对于 TigerGraph 而言,不需要去刻意改变行业的认知,不需要去过分夸大图数据的能力,因为数据的价值就摆在这里。即便在被各种不可控外界因素所充斥的 2020 年,TigerGraph 仍然没有放慢它的脚步。

毕竟在未来的商业模型中,数据也会像今天的水电煤一样随用随取,用户无需再关心底层到底是哪一种数据库,用的是什么计算引擎,只需专注于查询和调用自己需要的数据,并将数据推理的结果运用于当前的业务场景创造商业价值就好。

那么 2020 年,会是图数据行业实现蝶变,逆势而上的一年吗?让我们拭目以待。

开发者福利

改变世界?让世界变得更好?你选择相信,就会成为可能!TigerGraph 2020 Graphathon 给每一个热爱改变的开发者最大的舞台,尽情发挥,“图”改世界!

TigerGraph 2020 Graphathon 是 TigerGraph 主办,面向开发者的图应用竞赛。开发人员通过 TigerGraph 及其他相关工具进行整套应用方案开发。不限行业、不限年龄、不限职业,只要你利用图分析工具,开发出属于你的图应用方案,带给人“原来图还可以这样用”的新启发,就可以报名参加!

优秀的对手和最高 5K 美金及 2K 云资源在等着你,还能获得专业的技术辅导,点击阅读原文立即报名吧!









点个在看少个 bug 👇

登录查看更多
0

相关内容

图形数据库是NoSQL数据库的一种类型,它应用图形理论存储实体之间的关系信息。
异质信息网络分析与应用综述,软件学报-北京邮电大学
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
142+阅读 · 2020年5月19日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
新时期我国信息技术产业的发展
专知会员服务
70+阅读 · 2020年1月18日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
【供应链】用好大数据,建设数字化供应链
产业智能官
15+阅读 · 2020年7月21日
领域应用 | 企业效益最大化的秘密:知识图谱
开放知识图谱
8+阅读 · 2019年4月11日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
【工业互联网】工业互联网与工业大数据分析的应用
产业智能官
12+阅读 · 2017年12月26日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
Neo4j 图数据库基础
数据库开发
6+阅读 · 2017年8月1日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
102+阅读 · 2020年3月4日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
7+阅读 · 2018年3月21日
VIP会员
相关VIP内容
异质信息网络分析与应用综述,软件学报-北京邮电大学
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
142+阅读 · 2020年5月19日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
新时期我国信息技术产业的发展
专知会员服务
70+阅读 · 2020年1月18日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
相关资讯
【供应链】用好大数据,建设数字化供应链
产业智能官
15+阅读 · 2020年7月21日
领域应用 | 企业效益最大化的秘密:知识图谱
开放知识图谱
8+阅读 · 2019年4月11日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
【工业互联网】工业互联网与工业大数据分析的应用
产业智能官
12+阅读 · 2017年12月26日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
Neo4j 图数据库基础
数据库开发
6+阅读 · 2017年8月1日
相关论文
Arxiv
13+阅读 · 2020年4月12日
Arxiv
102+阅读 · 2020年3月4日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
7+阅读 · 2018年3月21日
Top
微信扫码咨询专知VIP会员