时序数据库连载系列：时序数据库那些事

2019 年 2 月 24 日 云栖社区

正如《银翼杀手》中那句在影史流传经典的台词：“I've seen things you people wouldn't believe... All those ... moments will be lost in time, like tears...in rain.” 时间浩瀚的人类历史长河中总是一个耀眼的词汇，当科技的年轮划到数据时代，时间与数据库碰到一起，把数据库内建时间属性后，产生了时序数据库。时序数据库是一种带有时间戳业务属性的垂直型数据库。自从2014年开始，数据库热度排名网站DB-Engines就把时间序列数据库作为了独立的目录来分类统计，而且最近几年的增长率在全部数据库分类里排名第一（见下图）。

时序数据库

A time series database (TSDB) is a software system that is optimized for handling time series data, arrays of numbers indexed by time (a datetime or a datetime range)

以上是维基百科对于时序数据库的定义。可以把它拆解成3个方面来看：时序特性，数据特性，数据库特性。

时序特性：

时间戳：通用的业务场景内以秒和毫秒精度为主，在一些遥感等高频采集领域，时间戳可以达到纳秒级别。

采样频率：采集频率一般有2种，一种是周期性的时间采样频率，比如服务器性能相关的定期汇总指标。另外一种是离散型的采样，比如网站的访问等等

数据特性：

数据顺序追加

数据可多维关联

通常高频访问热数据

冷数据需要降维归档

数据主要覆盖数值，状态，事件

数据库特性（CRUD）

写入速率稳定并且远远大于读取

按照时间窗口访问数据

极少更新，存在一定窗口期的覆盖写

批量删除

具备通用数据库要求的高可用，高可靠，可伸缩特性

通常不需要具备事务的能力

时序数据库发展简史

第一代时序数据存储系统

虽然通用关系数据库可以存储时序数据，但是由于缺乏针对时间的特殊优化，比如按时间间隔存储和检索数据等等，因此在处理这些数据时效率相对不高。

第一代时序数据典型来源于监控领域，直接基于平板文件的简单存储工具成为这类数据的首先存储方式。

以RRDTool，Wishper为代表，通常这类系统处理的数据模型比较单一，单机容量受限，并且内嵌于监控告警方案。

基于通用存储的时序数据库

伴随着大数据和Hadoop的发展，时序数据量开始迅速增长，系统业务对于处理时序数据的扩展性等方面提出更多的要求。

基于通用存储而专门构建的时间序列数据库开始出现，它可以按时间间隔高效地存储和处理这些数据。像OpenTSDB，KairosDB等等。

这类时序数据库在继承通用存储优势的基础上，利用时序的特性规避部分通用存储的劣势，并且在数据模型，聚合分析方面做了贴合时序的大量创新。

比如OpenTSDB继承了HBase的宽表属性结合时序设计了偏移量的存储模型，利用salt缓解热点问题等等。

然而它也有诸多不足之处，比如低效的全局UID机制，聚合数据的加载不可控，无法处理高基数标签查询等等。

垂直型时序数据库的出现

随着docker，kubernetes, 微服务等技术的发展，以及对于IoT的发展预期越来越强烈。

在数据随着时间而增长的过程中，时间序列数据成为增长最快的数据类型之一。

高性能，低成本的垂直型时序数据库开始诞生，以InfluxDB为代表的具有时序特征的数据存储引擎逐步引领市场。

它们通常具备更加高级的数据处理能力，高效的压缩算法和符合时序特征的存储引擎。

比如InfluxDB的基于时间的TSMT存储，Gorilla压缩，面向时序的窗口计算函数p99，rate，自动rollup等等。

同时由于索引分离的架构，在膨胀型时间线，乱序等场景下依然面临着很大的挑战。

时序数据库发展现状

目前，DB-Engines把时间序列数据库作为独立的目录来分类统计，下图就是2018年业内流行的时序数据库的关注度排名和最近5年的变化趋势。

公有云

AWS Timestream

2018.11 Amazon在AWS re Invent大会发布Timestream预览版。适用于 IoT 和运营应用程序等场景。
提供自适应查询处理引擎快速地分析数据，自动对数据进行汇总、保留、分层和压缩处理。按照写入流量，存储空间，查询数据量的方式计费，以serverless的形式做到最低成本管理。

Azure Series Insights

2017.4 Microsoft发布时序见解预览版，提供的完全托管、端到端的存储和查询高度情景化loT时序数据解决方案。强大的可视化效果用于基于资产的数据见解和丰富的交互式临时数据分析。
此外，针对数据类型分为暖数据分析和原始数据分析，按照存储空间和查询量分别计费。