破解数据孤岛难题，企业需要什么样的大数据平台？| Q推荐

2022 年 4 月 29 日 InfoQ

随着数字经济加速发展，企业数字化转型正向更深层次推进。基于数字技术，企业通过数据驱动，有望实现创新产品服务、变革运营方式和迭代资源组织模式。而这一切都是建立在企业 IT 基础设施之上。

对企业而言，当今正值新一轮科技革命迅猛发展阶段，数据规模爆炸性增长、数据类型愈发丰富、数据应用快速深化，数据库 / 大数据平台在企业 IT 基础设施中发挥着越来越重要的作用。

1 单模型数据库“落伍”，多模型大数据平台应运而生

在数字化转型早期，企业的数据采集、存储、分析、决策和应用场景往往相对单一、成熟，企业只需购买市面上对应的数据库产品即可满足自身需求。这个阶段，对企业来说，单模型数据库基本够用。

但是，随着数字化转型的深入和企业的快速发展，当面对业务扩展、不可预测的需求变化和企业管理标准的提高等各类情况出现时，单模型数据库就会“失效”，因为企业可能需要使用关系型存储、文本存储、图存储、对象存储、搜索引擎、地理空间存储、键值存储、宽表存储、时序数据存储、事件存储等更丰富的数据存储模型。

问题在于企业各自独立的大数据和数据库产品如同一个个数据孤岛，成为不同场景、项目、业务和部门间数据互通的壁垒。并且，企业使用多种单模型数据库将会导致数据冗余、数据一致性治理难、数据跨库分析难、资源配置难等一系列问题。同时，多产品的语言与接口不统一，学习成本高，运维成本高，系统的总拥有成本也会不断升高。

简言之，这些各自独立的大数据和数据库产品已经不适应企业发展的需求。

越来越多的企业逐渐意识到，未来的大数据平台，既要为不同的项目场景配置不同数据模型以保障其高性能，又要让数据操作和运维更便捷、更统一。在这样的需求推动下，在一个统一平台中用多种数据模型的“多模型大数据架构”应运而生，开始快速发展。

多模型大数据架构的本质是在一个单一软件平台内，针对不同的应用场景配置不同的数据模型，并将操作和运维等管理工作统一化、标准化，从而在保障数据平台性能的前提下大幅简化数据平台运维管理难度，提升平台的弹性与可扩展性，解决不同业务部门间存在的数据孤岛问题。

2 多模型大数据平台的“进化”

在多模型大数据架构的发展初期，业内主流产品仅仅是简单地将多个单模型数据库使用统一的界面组合在一起。这种平台内部依旧保留了多种类型的数据库，如关系型数据库、文档存储、键值存储、图数据库等，且不同数据库依旧采用各自独立的代码实现。

换句话说，这种多模型架构本质上仍然是单模型架构的延伸，只是在形式上将数据孤岛问题隐藏在统一的用户界面背后。简言之，它并没有真正解决问题。

随着企业痛点再次凸显，业界开始出现原生的多模型大数据平台。在这样的平台上，企业可以将所有业务数据汇聚起来，通过平台搭配的工具操作数据，从而挖掘数据中潜藏的价值。总体而言，原生多模型大数据平台需要具备以下特点：

满足一站式数据处理需求，能帮助用户完成一个数据处理的全链路；
处理多种数据模型，包括关系型数据、图数据、文本数据等；
具备强大的存储和计算能力，有能力帮助客户在海量数据中探索价值。

相比早期的拼装式多模型大数据架构，原生多模型大数据平台具有天然优势：

更强大的数据一致性。业务需要不同的数据模型时，多模型大数据平台天然支持一份逻辑数据实现多种数据建模，并应用于多个不同场景，避免了使用多个单一数据模型产品时需要面对的数据一致性、数据导入导出延时、数据冗余等问题。
更灵活的资源弹性。多模型大数据平台将不同模型的存储和计算资源池化，可以根据业务需要随时增减数据模型的种类，灵活部署和回收计算和存储资源，真正做到按需分配，用完回收，更灵活、更充分的使用好存储计算资源。
更简洁的操作与运维。多个单模型数据库产品往往接口不同、语法各异，开发人员学习成本高昂，专业技能门槛高。使用统一的多模型大数据平台时，开发人员只用学习统一的语言、统一的接口来操作多个数据模型，难度显著降低。

原生多模型大数据平台一诞生，很快获得企业青睐。据悉，在 2020 年前，业内主流的多模型大数据架构主要分为三种实现路径，但是各有各的问题。具体而言：

第一种：以 IBM DB2 和 Oracle DB 为代表，分别支持 6 个和 3 个模型种类。这一实现路径为每一种新数据模型开发独立完整的存算策略。其缺点是存算耦合，支持的模型越多，系统的开发量和复杂度就越高，消耗的存算资源也较多。

第二种：以 MongoDB 和 MySQL 为代表，均支持 3 个模型种类。该路径用单一存储引擎支撑多个存储模型。缺点是由于不同计算数据模型对存储的要求不同，单一存储引擎无法随之匹配适合的存储策略，从而限制了多模型数据库的性能。

第三种：以 Couchbase 和 MarkLogic 为代表，分别支持 2 个和 4 个模型种类。第三条路径在多种独立数据库之上提供统一的用户界面，对底层多个数据库进行转发。缺点是由于底层多个数据库开发语言不一致，导致实际开发时的高难度，排除故障的成本也较高。

为解决上述三条传统实现路径存在的问题，星环科技于 2020 年实现了基于分层设计的第四种多模型大数据统一架构：提供了统一接口层、统一的计算引擎层、统一的分布式存储管理层以及统一的资源调度层，基于存算解耦支持 10 种数据模型。该架构应用于星环科技自研的大数据平台产品 TDH（Transwarp Data Hub）上。

3 不一样的多模型大数据架构：星环科技多模型统一架构

据悉，星环科技的多模型统一架构采用“异构存储，四层统一”设计，利用统一语言、计算、存储、资源重构大数据软件栈，在一个平台上支持十种数据模型，有效降低数据开发和运维的难度，极大提升了用户开发效率。

从星环科技最近发布的大数据基础平台 TDH9.0，我们可以一窥其特性：

统一接口层。统一的 SQL 编译器 Transwarp Quark 可以实现统一接口，处理不同的业务和不同数据模型，只需简单的 SQL 语句即可完成各种复合跨模型数据查询，无需访问不同接口即可操作不同的数据模型。场景切换、数据库切换造成的接口、开发语言切换问题不复存在，开发和迁移成本大大降低。
统一计算引擎层。分布式计算引擎 Transwarp Nucleon 可以根据不同的存储引擎自动匹配高性能算法，不仅可以支持批处理、流处理等不同类型计算任务，还能支持不同模型数据的流转与关联，方便用户在一个 SQL 中使用不同模型的数据，降低开发难度，提升开发效率。
统一的分布式存储管理系统。TDH 可以为不同存储引擎提供公共的存储管理服务，保障数据一致性，实现数据统一管理运维和高可用。它接入了 9 款存储引擎，支持 10 种数据模型的存储。用户不需要为不同模型建立单独的存储系统，而是通过统一的存储管理，降低运维管理成本，也避免了数据孤岛。分布式数据管理系统的插件特性也方便后续业务的灵活扩展，可以根据需要接入其他存储引擎。
统一的资源调度层。TCOS 是星环科技自主研发的云原生操作系统，提供统一的资源调度框架，通过容器化编排能统一调度计算、存储、网络等各基础资源。TCOS 还支持灵活、按需的异构硬件（X86、ARM 混合部署）、异构操作系统的水平扩展，支持单独扩展计算或存储资源的水平扩展，避免因业务数据增长带来的资源紧张而需进行繁琐的扩容、迁移等工作。TCOS 也提供了相比虚拟机损耗更低的资源隔离能力，使不同租户、不同应用，资源隔离互不影响。

此外，星环多模型统一架构还提供了实时流计算引擎 Slipstream，满足实时监测和实时 ETL 需求；数据科学平台 Sophon Discover，满足数据挖掘与机器学习需求。

TDH 9.0 的统一分布式数据管理系统 TDDMS 和分布式文件系统 TDFS 提供更稳定的小文件管理能力和访问性能，提升了存储可靠性。星环分布式交易型数据库 KunDB 则提供了更高性能、更加可靠的元数据处理服务。

4 多模型统一架构 VS 开源多模型方案

在大数据领域，其实业界有不少相对成熟的开源产品，很多企业干脆选用开源产品直接组合成自己的大数据解决方案。但是，开源产品也有自己的局限：一是传统行业业务发展久，复杂系统可优化点多，技术功能较集中的开源产品很难系统解决全局问题；二是开源社区大多由国外技术人员主导，对国内场景缺少针对性调研和解决策略。

既然开源产品无法解决问题，那么企业就要考虑其他选择。相比传统的开源多模型方案，星环科技自主研发的多模型统一架构则是更好的选择，它具备架构复杂度低、开发成本低、运维成本低、数据安全性高、数据处理效率高等优势。

为什么星环多模型统一架构优于开源多模型方案？这是因为一方面，星环多模型统一架构高度重视创新技术的适用性和落地能力，相比开源方案更加重视传统企业场景中原有业务能否顺利迁移的问题；另一方面，其计算引擎以 JVM 为主，存储引擎以 C++ 编写，兼顾了性能、功能和上手门槛等方面的客户需求，相比开源方案具备更高的灵活性和实用性。同时，它的智能运维模块能够结合大数据技术特征与业务最佳实践，通过对 TDH 平台上大数据服务特征指标的收集，基于智能运维规则库匹配判断，提供集群改善运维建议，保障集群长期高效稳定运行。

此外，星环多模型统一架构结合自身基础安全组件以及大数据开发工具 TDS，让用户在数据开发过程中可以得到全生命周期的数据安全防护，方便用户建立起数据安全环境与操作流程，保障数据安全。

开源大数据方案为实现不同业务需求，通常要部署多个不同产品，为此用户需要学习适配多个产品的不同接口，开发成本较高。这些产品还会使用各自独立的计算引擎和存储方案，数据存储在各自的生态中难以互通，ETL 流转效率低，也难以保证数据的准确性、一致性和实效性，最终影响业务准确性。各自独立的计算引擎若部署在同一节点上，也可能会引起计算资源竞争问题。

相比之下，多模型统一架构把多种数据模型的接口层、计算引擎层和分布式存储管理均抽象出来，避免了多个接口标准不统一、计算资源抢占、存储不统一等问题。一个 SQL 就可以实现不同数据模型的操作和查询、模型转化流转以及跨模型关联分析，解决了不同模型数据之间的组合使用问题。

以跨模型联合分析应用场景为例。这个场景需要研究 30 岁人群的消费习惯和喜好，为此将该人群消费的商品评价作为参考。为获得该人群对某商品的评价数据，需要进行三次检索，用到图数据库中的人群关系型数据、关系型数据库中的人群消费记录数据，以及搜索引擎中消费商品评价数据。

定位 30 岁的人群。首先连接到图数据库中，使用图数据库查询语言，找出 30 岁人群一度关系的人群 ID 集合；
获取该人群的消费记录。连接到关系型数据库中，使用 SQL 查询语言，用第一步获取的人群 ID 作为过滤条件，获取该人群消费商品 ID，找出这些人群消费了哪些商品；
获取包含特定关键词的商品评价。接入搜索引擎，编写 RESTful API 请求，使用前两步获取的人群 ID 和消费商品 ID，检索商品评价。

为完成这个业务，用户需要搭建 3 个独立的数据库，并在应用适配 3 种数据库的连接方式和查询语言，同时还要求开发人员同时了解这 3 种数据库的开发技术，整个流程非常复杂，技术要求非常高。此外，3 个独立系统的数据可能存在不一致，比如消费记录更新到了关系型数据库，但相应的评价没有更新到搜索引擎中，导致分析语句的结果不准确。

而基于星环多模型统一技术架构，用户只需一句 SQL 就能同时访问这 3 种存储模型进行联合分析，替代之前的三段代码。一句 SQL 同时对图数据人群关系表、关系型数据消费记录表、全文数据商品评价表进行跨模型关联，大大简化了开发复杂度。同时，数据仍保留在原存储引擎中，无需对数据进行导入导出或者转换，不存在数据不一致或数据冗余存储等问题。

5 写在最后

面对愈加复杂的企业大数据应用需求，多模型统一架构具备易开发、易运维、低成本、高性能、可扩展、强安全性等多方面的优势，能有效打通企业不同业务部门之间的数据孤岛，充分挖掘海量数据中潜藏的价值，为企业提供一站式的大数据业务解决方案。

自 2013 年以来，星环科技的 TDH 大数据基础平台已经基于多模型统一架构走过了 9 年的迭代升级道路，成为一款国产自主可控的多企业级大数据基础平台，可以替代 Oracle、IBM DB2、Teradata 等传统主流数据库在分析型场景中的应用，替代 ElasticSearch 在分布式搜索场景中的应用，并在政府、金融、能源、制造业等十多个行业内落地。TDH 还完成了与主流信创生态厂商的适配互认工作，满足信创验收要求。

最近，星环科技正式推出 TDH 9.0，基于多模型统一架构对多模型处理能力进一步加强，从整体上进一步提升了平台综合性能、可靠性、易用性以及安全性，为企业数字化转型构建了统一、高性能、高可靠，更全面、更便捷、更智能、更安全的新型数字底座，为企业数字化转型注入更强动力。未来，星环科技将持续自主研发与技术创新，强化大数据平台统一多模型处理能力，为大数据社区与人才培养提供领先的技术力量，挖掘大数据技术的更大潜力。

点个在看少个 bug 👇

登录查看更多