阿里妹导读:任何应用系统都离不开对数据的处理,数据也是驱动业务创新以及向智能化发展最核心的东西。数据处理的技术已经是核心竞争力。在一个完备的技术架构中,通常也会由应用系统以及数据系统构成。应用系统负责处理业务逻辑,而数据系统负责处理数据。本篇文章主要面向数据系统的研发工程师和架构师,希望对你有所启发。
派生数据体系
异步队列复制:这是目前被应用比较广的架构,应用层将派生数据的写入通过队列来异步化和解耦。这种架构下可将主存储和辅存储的数据写入都异步化,也可仅将辅存储的数据写入异步化。第一种方式必须接受主存储可异步写入,否则只能采取第二种方式。而如果采用第二种方式的话,也会遇到和上一种『应用层多写』方案类似的问题,应用层也是多写,只不过是写主存储与队列,队列来解决多个辅存储的写入和扩展性问题。
存储计算分离架构:采用存储计算分离架构,底层基于飞天盘古分布式文件系统,这是实现存储计算成本分离的基础。
LSM存储引擎:LSM和B+tree是主流的两个存储引擎实现,其中LSM专为高吞吐数据写入优化,也能更好的支持数据冷热分层。
Serverless产品形态:基于存储计算分离架构来实现成本分离的最关键因素是Serverless服务化,只有Serverless服务才能做到存储计算成本分离。大数据系统下,结构化大数据存储通常会需要定期的大规模数据导入,来自在线数据库或者是来自离线计算引擎,在此时需要有足够的计算能力能接纳高吞吐的写入,而平时可能仅需要比较小的计算能力,计算资源要足够的弹性。另外在派生数据体系下,主存储和辅存储通常是异构引擎,在读写能力上均有差异,有些场景下需要灵活调整主辅存储的配比,此时也需要存储和计算资源弹性可调。
多元化索引,提供丰富的查询能力:LSM引擎特性决定了查询能力的短板,需要索引来优化查询。而不同的查询场景需要不同类型的索引,所以Tablestore提供多元化的索引来满足不同类型场景下的数据查询需求。
CDC技术:Tablestore的CDC技术名为Tunnel Service,支持全量和增量的实时数据订阅,并且能无缝对接Flink流计算引擎来实现表内数据的实时流计算。
拥抱开源计算生态:除了比较好的支持阿里云自研计算引擎如MaxCompute和Data Lake Analytics的计算对接,也能支持Flink和Spark这两个主流计算引擎的计算需求,无需数据搬迁。
流批计算一体:能支持Spark对表内全量数据进行批计算,也能通过CDC技术对接Flink来对表内新增数据进行流计算,真正实现批流计算结合。
多元化索引
通道服务
你可能还喜欢
点击下方图片即可阅读
关注「阿里技术」
把握前沿技术脉搏