时间序列分类问题采用监督机器学习技术来分析时间上的有序数据并对新的连续数据进行分类。近年来,随着时间序列数据访问量的增加,时间序列分类越来越受欢迎,问题出现在广泛的应用中,如音频记录、医疗信号和天气预测。一般来说,有一个假设,即时间排序是均匀的或接近均匀采样的。然而,在一些重要的应用中,情况并非如此。
这个项目研究了一个数据集,它是一个非常不均匀采样的时间序列,任务是对三个标签进行分类。该数据集也相当大,需要非常高维的特征。这些考虑促使我们使用了顺序学习技术。顺序(序列)学习是指以数据序列作为输入或输出的机器学习模型。这个项目的目标是确定预处理技术和生成序列的方法,这将有助于这个分类任务。如果成功的话,其结果可以帮助深入了解类似的序列学习问题。
首先对整个数据集的数据进行了标准化。给定的数据有很大的时间间隔,其中没有样本,被称为 "死区",通过插值和零均值填充的过程人为地填补了这些空白。还创建了一个相对时间编码特征,以帮助预测者解释数据突发之间的时间量。分割是为了保持一个窗口的序列长度,同时增加它所代表的时间长度。
一个共同的最佳预测器被确定为(D, N, P, S)=(8, 644616, 250, S/8),其中D代表抽取因子,N代表训练中使用的序列数,P代表窗口长度,S代表步幅。研究发现,存在一个近似的时间长度,大致等于2120个样本,使这种分类的性能达到最佳。