中国自主的数据库评测,是如何开展的?

2022 年 2 月 25 日 InfoQ
作者 | 王一鹏

据相关数据显示,仅在 2021 第四季度,数据库初创企业就募集了超过 22 亿美元的资金。而像 Snowflake 这样的企业,整体市值已经超过千亿美金。

资本的大量涌入,反映的是整个数据库市场的产品丰富度出现了极大的提升。但在企业层面,这却为架构师们带来了另一个困扰:数据库的选型和评测问题。

此前,较受认可的评测是由 TPC( Transaction Processing Performance Council,事务处理性能委员会)推出的 TPC-C 评测标准,而 TPC-C 也一度成为每个主流数据库都会尝试一下的评测。但 TPC-C 也有自身的问题,首先,它面向的是 OLTP 数据库,并不能满足所有场景的数据库测试。实际上,TPC 只给出了标准规范,特别场景需要厂商自行处理。另外,TPC 的审核人员人数很少,且全部在美国,沟通不便。从开销的角度讲,TPC-C 也较为昂贵,比如 Oracle 从 2010 年开始,就基本退出了 TPC-C 评测。

种种问题,使数据库评测处于一个事实上的空白领域。这也促使国内许多机构开始尝试进行数据库标准评测,信通院作为我国工业和信息化部直属事业单位,有推动我国 ICT 领域健康、快速发展的直接责任,因此从 2015 年开始推出各类数据库评测,在整个行业都产生了较大的影响力。

在评测不断开展和完善的过程中,InfoQ 受邀参加了 2021 第十三批第二场数据库评审,也和中国信通院云计算与大数据研究所高级业务主管马鹏玮聊了聊,希望能了解到更多关于信通院数据库评测设计和评审的信息。

1 信通院数据库评测整体概况

从统计数据来看,截至 2021 年 11 月底,信通院已经开展了 13 批产品能力评测,共计完成 58 家企业 93 次基础能力测试、35 次性能测试和 4 次稳定性测试,几乎覆盖国内所有主流数据库企业和产品,企业包括云服务厂商、传统数据库企业、互联网大厂、通信企业、学术机构、电信运营商等行业头部用户方。

据 InfoQ 了解,目前信通院数据库评测整体涵盖几个方向,从应用类型上可分为事务数据库和分析型数据库;从数据模型上可分为图数据库、文档数据库、键值型数据库和时序数据库;从产品部署形态上,也有关系型云数据库参与评测。针对同一款产品,信通院按照产品基础能力、产品性能和产品稳定性来划分评测维度,总体形成“中国信通院可信数据库评测评估体系”。

而每种类型数据库的测试包括功能、性能、安全性、稳定性四大项,涉及大概 20 - 30 个必选测试用例,以及 10 个左右的可选测试用例,整体设计参考了我国工信部发布的各类数据技术要求与测试方法标准文件。以分析型数据为例,其测试标准表如下:

为了保证评测过程的公正、科学,整个评测大致分为标准制定、报名审核、实地测试、专家评审 4 个环节。在标准制定环节,信通院会联合该领域内头部企业,共同制定测试标准;在报名审核环节,被测数据库企业提交相应信息到信通院进行审核,只有符合对应评测条件的数据库可以参与评测;在实地测试环节,信通院会根据被评测的产品类别,派出对应工程师到现场,按照前期制定的统一标准执行测试;在专家评审环节,信通院会邀请金融、电信领域的应用方专家,以及领域内头部高校专家,共同对测试结果进行评审,确保测评结果的正确性。

因为测试类别的不同,现场测试时间一般会在 3 天到 2 周之间浮动。测试过程中,信通院会有测试工程师全程参与,而被测方的产业负责人、测试人员等均会全程参与。虽然有部分企业反映测试时间紧张,但时间问题也是信通院技术专家的关注重点。在测试开始前,信通院专家会与企业一起讨论测评时间的设计。信通院的工程师也会在正式测试前,进行模拟和试验,验证时间的合理性。

这也说明该测试仍然是有相当难度的,采访中,马鹏玮表示:“只有执行资源不是完全充裕的任务,才能考验一个人的能力水平。如果测试时间每家企业都十分充裕,那估计每家企业都有充足的时间研究怎么去考满分,测评也就失去了意义。”

2 “全面”与“公平公正”,是评测的重点

此前的业内数据库评测,一般针对某一类数据库产品的某一项功能,或某个场景下的性能进行评测,作为行业参考可能是有失偏颇的。所以,信通院数据库评测在整体设计上,首要解决的是“全面评测”的问题。

反映在具体的测试方法上,就像前文提到的,一是涵盖的数据库类型全面;二是针对某一数据库产品,测试的维度全面。

“公平公正”则是打造评测标准体系的另一个要点。信通院是基于国家要求的测评质量流程执行测试,在前期会对测试人员的知识体系进行标准化培训。在测试环境和工具方面,信通院选择自建机房、自研测试工具,统一了软硬件环境,同时也消除了作弊的空间。相关工具也会提供给应用方长期使用,以保证测试公正透明。

而具体的测试标准和方法,则是由信通院和业内头部应用方和供应商(四大行、HBAT 等)共同讨论形成,讨论时间可长达半年以上。测试完成后,产业专家会对测试结果进行评审,保证结果真实可信。信通院也会将非敏感信息对外公开,接受整个产业的监督。

当然,从实际测试过程来看,专家评审结论一般与现场测试结果基本一致。于评审专家而言,更多的工作可能是在保证测试结果准确性的同时,也针对供应商的产品情况提出一些优化意见,帮助供应商更好的成长。

3 从测试结果看国产数据库发展情况

“全面”、“公平公正”的理念,无疑也得到了相当多企业的认可,在最近的一次数据库评测(第十三批评测)中,来自不同公司的八十余款数据库产品通过了基础能力评测,几乎覆盖了国产数据库的“半壁江山”。

针对测评的结果,我们也能看到一些有意思的现象。比如,中小企业参评的比重在增多,与资本市场的反馈互相验证;海量异构数据处理需求正在推动数据存储技术快速发展,比如,以图数据库、键值数据库为代表的新型数据存储产品较前几批测试有了较大的增长;各家数据库之间,产品能力的差异正逐渐扩大,可选项通过率低至 50.23%。

如果将国外数据产品也纳入考虑,这些趋势会更有意思。

马鹏玮分享道:

“从产品能力看,我国部分产品的功能、性能已经超越了国外数据库产品,有很多的数据、案例均说明了这一点。但是我们不能因为这些就说我们处于领先地位。因为国外数据库真正强大的地方在于其他方面。一是他们有非常完备的渠道体系,这就保证了他们可以用自己的力量或合作伙伴的力量,随时响应甲方的需求;二是他们有非常丰富的人才储备。因为数据库在部署后,还是需要人去运维的,甲方可以很容易的在市场上招到能运维国外数据库产品的人才,但是国产的就很难找。”

更隐晦的问题在于,数据库作为重要的基础软件,是存在相当的品牌价值差异的。比如,如果一名架构师在做规划时选用了 Oracle 数据库,但在实际使用过程中,Oracle 出现了问题,该架构师可能并不会特别难堪,因为他可以宣称自己使用了世界顶级的数据库,责任不在自己。但如果该架构师选择使用国产数据库,甚至是来自创业团队的新型数据库。那么一旦出现问题,压力可能会非常大。

当然,品牌价值会随着产品的完善而提升,新产品总会褪去青涩,这些标准化的测试,也正是在加速这一过程。同时,国产数据库正迎来史无前例的发展机会 —— 数据量爆炸式增长,数据存储结构灵活多样,新兴的业务需求催生数据库及其应用系统的存在形式愈发丰富,数据库技术不断向着模型拓展、架构解耦的方向演进,与云计算、人工智能、区块链、隐私计算、新型硬件等技术呈现取长补短、不断融合的发展态势。

马鹏玮将这种发展态势进一步细化为三个要点:

  1. 多模数据库实现一库多用、利用统一框架支撑混合负载处理、运用 AI 实现管理自治,提升易用性、降低使用成本;

  2. 充分利用新兴硬件、与云基础设施深度结合,增强功能、提升性能;

  3. 利用隐私计算技术助力安全能力提升、区块链数据库辅助数据存证溯源,提升数据可信与安全。

随着国产企业在以上各场景技术、业务经验的不断积累,相信整个国产数据库产业,也将随之进入新的发展阶段。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

被侮辱、被无视,Swift 之父离开核心团队:纯属浪费时间

无法忍受不做单元测试和内卷,我离开了这家在美中国企业

Rust拖慢开发速度?2021年Rust调查报告出炉

出道即巅峰,十年后却“泯然众人矣”,苹果拿什么拯救 Siri?

点个在看少个 bug 👇

登录查看更多
0

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
《金融大数据术语》行业标准,24页pdf
专知会员服务
54+阅读 · 2022年2月28日
专知会员服务
24+阅读 · 2021年9月5日
专知会员服务
93+阅读 · 2021年7月23日
2021年金融级数据库容灾技术报告(附PDF全文)
专知会员服务
20+阅读 · 2021年7月11日
数据库发展研究报告(2021年)
专知会员服务
48+阅读 · 2021年6月29日
“热搜”中的分布式数据库 | Q推荐
InfoQ
0+阅读 · 2022年2月15日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Accurate ADMET Prediction with XGBoost
Arxiv
0+阅读 · 2022年4月15日
Arxiv
11+阅读 · 2021年3月25日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员