随着计算机与网络通信技术的不断发展,数据在存储、计算、组织与管理方面不断地面临着新的形势与挑战,这也推动着数据库架构与技术不断的升级迭代。
从上世纪 50 年代,UNIVAC 商用电脑的打孔式存储到 IBM 推出关系型数据库模型理论;从 Oracle 数据库成立并一家独大,到云计算时代数据库上云成为趋势,数据库在过去的半个多世纪经历了数次变革与洗牌。
IT 世界的变化层出不穷,几十年中,CPU/ 内存 / 存储技术在摩尔定律的催生下天翻地覆地变化着;计算机程序开发语言像时装潮流一样,几年一变;网络协议也演变了很多轮;企业 IT 架构都经历了 C/S,B/S,云计算等 N 代;数据库这个 IT 领域中核心环节仍然扮演着最重要、最难写、最难突破、最难改变的角色,也是每一个企业 CIO/CTO 们最重视的软件却似乎很独特地 N 年不变,直到最近的十年……大数据的出现,NoSQL 的流行,改变了关系型数据库的统治地位,数据库市场出现了前所未有的“百家争鸣”局面。仅中国数据库市场上,就出现了 200 多家“国产数据库”产品。
那么推动数据库变革的根本动力是什么?面对纷繁复杂的数据库产品,用户在数据库选型时该何去何从?数据库未来又会如何发展?
本期 C 位面对面,我们有幸邀请到了 DataStax 大中华区总经理卢东明。他在数据库领域有着近 30 年从业经验,曾在微软、Sybase 、SAP、华为等企业任职过技术高管。作为亲历过数据库领域多次变革与洗牌的“老兵”,他对数据库技术和产业有哪些观察?未来他关注的数据库发展趋势是什么?
2008 年前后,国产数据库产品线还是门可罗雀,国内市场被 Oracle、IBM、微软等巨头牢牢锁住。商用关系数据库的市场竞争主要围绕这几家大厂展开。
到了 2006 年,Sybase 在全球数据库市场的市占率虽然排在甲骨文、IBM 和微软之后位居第四位,但其当家产品 Adaptive Server Enterprise 仅占了全球 3.1% 的市场份额,还无法与 Oracle、微软和 IBM 抗衡。Sybase IQ 虽然也是一款很优秀的数据库产品,但其知名度远不如前三大巨头。Sybase IQ 是特别为数据仓库设计的关系型数据库,它的架构与大多数关系型数据库不同,首要任务是用以支持大量并发用户的即时查询,其次是完成批量数据更新的速度。而传统关系型数据库引擎的设计侧重考虑在线的事务处理。
当时,已经在数据库行业摸爬滚打了近 20 年的“老兵”卢东明认为,IQ 在国内的发展前景无可限量,于是开始坚定地在国内推广 IQ 列式数据库,经过他和同事们的辛勤耕耘、布道,Sybase IQ 逐渐在中国市场上有了一定的知名度和坚定的合作伙伴生态,支撑着中国农行、国家电网 SG186、中国移动经营分析等重要项目。
卢东明笑言:“在推广列式数据库时,基本上全部心思都花在 IQ 上了。当时有个同事跟我提到过有个很棒的数据库产品叫 Cassandra,是个希腊女神的名字,我当时还质疑,怎么可能有哪个数据库比 IQ 还要好。”
作为一名数据库领域的资深从业者,卢东明有着非常敏锐的技术嗅觉,同事不经意间的一句话,还是在他心中无形中形成了一个最初的线索。
一个机缘巧合下,卢东明了解到苹果公司 iCloud 里所有用户 ID 和用户行为的数据存储和服务都是由 Cassandra 支撑的,这让他十分惊讶。因为做了多年大数据项目,特别是对用户行为分析颇有见地的他对 iCloud 里的数据体量和结构的复杂程度都是有深度的理解的,他深知能够被苹果看上支持全球最大手机厂商的用户行为记录的数据库一定要有点绝活的,那么 Cassandra 究竟是凭什么做到的呢?
在经过了一段时间的调研后,卢东明有了的答案。
随着谷歌、亚马逊、阿里巴巴、苹果和 Facebook 等互联网新贵们的崛起,网络产生的数据量也呈爆炸式增长。传统类型数据库在应付海量,特别是超大规模和高并发 SNS 类的动态网站数量时显得力不从心,分布式、高可用、去中心化等新型数据库开始接下这些巨量数据处理需求。
在《Cassandra:The Definitive Guide》这本书里,对 Cassandra 这样一个 Apache 顶级项目,有一段概括性的描述定义了 Cassandra。它归纳了 Cassandra 的几大特性,依次为:开源、分布式、去中心化、可扩展性、高可用、容错性、可配置的一致性、行存储。
拿分布式的特点来说,Cassandra 是全球最大的一种分布式的数据库,它的整个架构是去中心化的,其扩展没有所谓的 Master 节点,那也就没有基于 Master 节点造成的瓶颈问题。此外,由于 Cassandra 的可线性扩展特性,只要按需求增加机器,去部署更多的节点,就可以支撑更多的用户,提供相同的 SLA。
这些分布式、可线性扩展等特性很好地支撑 Cassandra 在一朵云、多朵云甚至在混合云上部署,越是部署在一些复杂的混合云架构里边,越能体现出它分布式数据库的优越性。加之 Cassandra 优秀的读写能力能够支撑大量的用户的高效读写,种种优势叠加起来使得 Cassandra 在海外用户中备受赞誉。
比如海外银行 Capital One、联邦快递 FedEx 公司、美国邮局、沃尔玛、麦当劳等企业都将 Cassandra 作为核心数据库大量部署在架构中,每年给苹果带来 158 亿美金收入的 iCloud 也是 Cassandra 在支撑着。从苹果公开的数据来看,全球 20 万个节点来跑 Cassandra,其支撑的数据量大概是 100PB。
1PB 有多大?Adfonic 的 CTO Wes Biggs 给出了几个直观的计量描述:
假设手机播放 MP3 的编码速度为平均每分钟 1MB,而 1 首歌曲的平均时长为 4 分钟,那么 1PB 歌曲可以连续播放 2000 年;
如果智能手机相机拍摄相片的平均大小为 3MB,打印照片的平均大小为 8.5 英寸,那么总共 1PB 的照片的并排排列长度就达到 48000 英里——大约可以环绕地球 2 周;
支撑 100PB 的数据量,无疑是十分惊人的。
性能如此强大且在低延迟、可扩展和低成本等能力上表现同样优异的 Cassandra 在国内的知名度远不及国外。究其原因,是因为在国内,Cassandra 的背后缺乏一家能为它提供系统性、专业性支撑的商业公司,也没有特定的资源来支持社区的发展以及推动用户层面的认知。也正因为如此,卢东明下定决心要在国内推广 Cassandra 数据库,普惠更多开发者和企业。
卢东明称,Cassandra 虽说目前有海外流行度高于国内的情况,其实国内的用户已经遍布各个行业。华为、奇虎 360、滴滴等企业技术底层也都是由 Cassandra 在支撑,真正算得上是为互联网或云时代而生的一款核心数据库。
可以说,卢东明在职业生涯的后半程,抓住了 Cassandra 这个机会,这也是他选择在这个时间点担任 DataStax 中国区总经理的一个原因。
伴随着业界对于 Cassandra 商业化、产品化的需求不断高涨,2010 年 4 月,Apache Cassandra 项目主席 Jonathan Ellis 及其同事选择在美国成立 DataStax 公司,是全球规模最大的 Cassandra 数据库软件开发和咨询公司,已经服务过 600 多家全球巨头公司,所涉行业更是遍布金融、电信、证券、物联网、移动互联网、交通、物流、支付等领域。
DataStax 公司基于对开源代码的整理,不断测试、完善、提高数据管理系统,形成了企业版数据库产品 DataStax Enterprise(DSE)。那么,开源版本的 Cassandra 和商业版 DSE 之间的本质区别是什么?
简单来讲,DSE 版本在开源的 Cassandra 基础上增加了很多企业级特性。
比如,很多人在做数据的应用时,第一步是先把数据收集上来,第二步是将数据提供给各个用户、APP 等完成读写的服务,第三步要对数据进行长期的积累和分析,这是以前数据仓库、数据湖针对海量大数据的解决方案。
而在 DSE 版本里,实际上是内嵌了一系列提升性能的工具。比如开源界非常有名的实时分析引擎 Spark 和开源数据流产品 Pulsar,它们可以帮助 DSE 版本完成针对数据流的处理。因为经过多年的发展,很多数据不再以存储为目的,而是以出发为目的,以流动为目的,就好比发现一只股票价格的变化,你的目的不是为了把这个变化存下来,而是要把变化直接变成你交易的一个结果或者是一个交易的基础。更重要的是,它里面还内嵌了图数据库,帮助用户完成用户画像分析智能推荐等复杂任务。
DSE 版本也在 Cassandra 基础上做了很大强度的优化,使得 DSE 的性能比开源版本在性能上有大概一倍多到两倍的提升。
由于国际安全局势的日益复杂化,全球已经有 132 个国家跟地区制定了数据保护和隐私相关的法律法规,最近几年国内也出台了《数据安全法》、《个人信息保护法》等保障用户数据和隐私安全的法律法规,无论是企业还是个人,对数据安全的重视程度比以往任何时候都要高。为此,DSE 版本中也增加了对数据的加密服务,保证数据不仅要以大规模的方式存储,更要以安全、加密的方式存储。
DSE 版本不是一味在开源版本上增加、堆叠套件,而是以一种紧耦合的方式将内嵌套件与 DSE 深度兼容,用户不需要把数据从 Cassandra 搬到 Spark 里,就可以用 Spark 去访问 Cassandra 里面的数据存储,直接进行数据分析运算,因此,它更像是一个已经组合好的比较完整的数据平台。
数据库近几年的火热程度有目共睹。先是数据仓库 Snowflake 以史上最大软件 IPO 的 700 亿美元上市,接着 PingCAP、巨杉网络等数据库科创公司接连刷新融资记录,传统大厂阿里、华为等也在市场上高举高打,推广自己的数据库系统。
据中国信通院发布的《2021 年数据库发展研究报告》,预计到 2025 年,全球数据库市场规模将达到 798 亿美元,中国的 IT 总支出将占全球 12.3%。信通院预计,中国数据库市场在全球的占比将在 2025 年接近中国 IT 总支出在全球的占比,中国数据库总规模将达到 688 亿元,市场年复合增长率将是 23.4%。
这是一个竞争十分激烈且机遇满满的市场。目前国内约有 200 多个数据库产品,卢东明感言:“我做数据库这一行快 30 年了,我就没有见过如此激烈的一个市场竞争。”
面对这样一个几乎一进来就要迅速挤入白热化竞争中的市场大环境时,卢东明对自己要做的事情充满信心,信心来自 Cassandra 强大的产品能力及 DataStax 全球的产品研发及支持体系。
卢东明举了一个苹果 AirTag 的例子:
一年前,苹果推出了一个能绑在手机和钱包等随身物件上的小环——AirTag,它的作用是帮助人们定位寻找到丢失的物件。一旦某个物件绑定了 AirTag,丢失后就可以用你的另外一台 iOS 设备去远程定位它的位置,然后找到它。
AirTag 发射的信号可以通过全球的 iOS 设备网络发到 iCloud 上,甚至可以利用任何一台路过的 iOS 设备来传送位置信息,再通过 iCloud 服务让主人的 iOS 设备能定位到它,这个服务从数据层面来看,这是一个很恐怖的挑战。
如果安卓手机厂商也做一个这类似 AirTag 这样东西,去提供类似这种服务,数据上的挑战会是什么样的?我们做过一个大概的计算。过去三年,领头的几大安卓厂商设备的保有量大概是十亿的体量
这十亿的设备里如果有 20% 的人打开了定位服务,这些传感器大概一两分钟发出一个位置信号频率, 每天有 1440 分钟,一年 365 天,每一个带加密的位置信息大致是几十个字节。算下来每一天的裸数据量就是 10 亿 x 20% x (1440 / 2) x 365 x 64 = 9,216,000,000,000 字节 即每天 9TB,一年就是 3PB。这还只是裸数据量,如果加上相关的索引 / 备份 / 加工数据等,很可能就是十几个 PB,这是极其恐怖的一个数据量,你用什么样的数据库来支撑这样的一个体系,iCloud 做到了,华为的消费者云做到了,其它的安卓厂商做到了吗?面临的挑战用什么来解决?
当下,我们所面对的数据呈现出全球分布的特征,每分钟、每秒钟都会有大量的信息进来,如果要提供类似 AirTag 的服务,那数据库的线性扩展能力、成本问题将是摆在手机厂商面前的核心挑战。
除了苹果外,华为的消费者云底层使用的也是 Cassandra。Cassandra 支持了约 27 个华为产品,70 多个服务。据华为官网信息显示,华为在华为云上部署的消费者云的实际节点超过 3 万个,它的数据量也超过了 20 个 PB,访问量无疑是非常高的。
更重要的是,它能保证平均约个位数毫秒的超低延迟,在一般的 To C 的业务里,能做到 100 毫秒内的延迟已实属不易。
在全球分布式情况下,用一个简单的数据架构来支撑所有分布式业务,是非常大的挑战。因此,国内市场需要 Cassandra。
在对 DataStax 的规划上,卢东明也有自己的一套方法论。他将此归结为“三驾马车”:
第一驾马车是不遗余力为开源 Cassandra 社区提供支持。目前国内的 Cassandra 开源社区已经建立并开始运营了。社区里也有了一大批积极、活跃的开发者群体,他们渴望了解和学习更多与 Cassandra 相关的技术、知识,甚至还有人专门为 Cassandra 写一些技术解析的文章。DataStax 进入国内后,可以更好地支持开发者们在社区中与专家交流,为他们答疑解惑,Cassandra 开源社区的落地,让不了解、不会用 Cassandra 的开发者学会使用 Cassandra,这个过程就好像从 0 来到了 1,是卢东明三驾马车战略中最重要的第一步。
第二驾马车是让 DSE 企业版更好地赋能国内企业数字化转型。目前国内 Cassandra 用户使用的多是开源版本,但开源版本在众多场景下无法很好地支撑特定生产环境以及核心业务,DSE 版本便可以弥补这方面的不足。DSE 版本不仅可以提供更专业、更加定制化的服务,还内嵌了多个实用套件,让 Cassandra 与企业特定业务更融合。让 Cassandra 用户用上更好的企业版 DSE,好像从 1 到 10,是卢东明三驾马车战略中重要的第二步。
第三驾马车是打造以 Cassandra 为基底的完整生态链。目前,一些企业用户会把 Cassandra 部署在某个小项目或生产库里,但如何支撑更多的中国企业像苹果、华为、360 一样将 Cassandra 大规模地部署到业务中,则需要更多生态合作伙伴参与进来。需要企业级数据架构中的核心组件才能支撑复杂的分布式数据库的应用。
这“三驾马车”是卢东明规划的让 DataStax 在国内市场落地生根,枝繁叶茂最主要的三件事。
近年来,开源生态发展势头迅猛,在推动信息技术产业创新,促进产业协作,加快各行业数字化进程方面发挥日益突出的作用。去年,开源首次写入国家“十四五”规划中,开源产业已然成为新的热门领域。
开源软件和开源社区一个最核心的特点是它能够源源不断地进行创新。因为它是一个完全开放的社区,可以把各方面的创新力量都汇聚起来,基于开源社区生长起来的软件针对各国家和地区的适配性都比闭源软件更有优越性。Cassandra 作为一款开源软件,它也将一直以开源、开放的态度拥抱所有开发者。
卢东明强调,无论现在的产业大环境是云原生、分布式还是开源,DataStax 都已经做好了全面的布局,而且从 DataStax 总部角度来讲,过去几年也已经对国内市场做过冷静和客观的分析,在全球数字化转型的大方向里,国内市场绝对是不可缺少、不可忽视的一个市场,DataStax 全球业务副总裁 Harry Ault 表示:”我们进中国的决心是长期的,DataStax 也将在未来几年、十几年中深扎国内市场,为更多企业和开发者把技术困难解决好。
欲了解更多关于 Cassandra 数据库及 DataStax 的信息,请访问下方链接或扫码二维码关注 DataStax 公众号,共同交流。
DataStax Customer reference: https://www.datastax.com/enterprise-success
Casandra case study: https://cassandra.apache.org/_/case-studies.html
Bilibili 专区:https://space.bilibili.com/588274562
活动推荐
互联网时代,人才迭代速度加快,工作越来越不好找,头也越来越秃。在这个内卷的时代不用你东奔西走的找工作,咱们给你提供“一站式躺平服务”!InfoQ 写作社区联合拉勾招聘为你精选北上广互联网大厂岗位,涵盖研发、产品、运营等岗位,提供专业就业辅导,有兴趣就点击阅读原文,竭诚为你服务!
点个在看少个 bug 👇