In current research, machine and deep learning solutions for the classification of temporal data are shifting from single-channel datasets (univariate) to problems with multiple channels of information (multivariate). The majority of these works are focused on the method novelty and architecture, and the format of the input data is often treated implicitly. Particularly, multivariate datasets are often treated as a stack of univariate time series in terms of input preprocessing, with scaling methods applied across each channel separately. In this evaluation, we aim to demonstrate that the additional channel dimension is far from trivial and different approaches to scaling can lead to significantly different results in the accuracy of a solution. To that end, we test seven different data transformation methods on four different temporal dimensions and study their effect on the classification accuracy of five recent methods. We show that, for the large majority of tested datasets, the best transformation-dimension configuration leads to an increase in the accuracy compared to the result of each model with the same hyperparameters and no scaling, ranging from 0.16 to 76.79 percentage points. We also show that if we keep the transformation method constant, there is a statistically significant difference in accuracy results when applying it across different dimensions, with accuracy differences ranging from 0.23 to 47.79 percentage points. Finally, we explore the relation of the transformation methods and dimensions to the classifiers, and we conclude that there is no prominent general trend, and the optimal configuration is dataset- and classifier-specific.


翻译:在当前的研究中,用于分类时间数据的机器学习和深度学习的解决方案正从单通道数据集(单变量)转向具有多个信息通道(多变量)的问题。这些工作的大多数关注方法的新颖性和架构,输入数据的格式通常被隐式处理。特别是,多元数据集经常被视为经过预处理的单一时间序列堆栈,在每个通道上单独应用缩放方法。在这项评估中,我们旨在证明附加的通道维度远非微不足道,并且不同的缩放方法可以导致解决方案的准确性显著不同。为此,我们在四个不同的时间维度上测试了七种不同的数据转换方法,并研究它们对五种最近方法的分类准确性的影响。我们显示,对于大多数测试数据集,最佳的转换维度配置比每个模型具有相同的超参数且不进行缩放的结果高,从0.16到76.79个百分点不等。我们还表明,如果我们保持变换方法不变,则在应用不同维度时,准确性结果存在统计学上的显着差异,准确率差异范围从0.23到47.79个百分点不等。最后,我们探讨了转换方法和维度与分类器的关系,并得出结论,没有显著的一般趋势,最佳配置是特定于数据集和分类器的。

0
下载
关闭预览

相关内容

专知会员服务
56+阅读 · 2021年1月26日
专知会员服务
27+阅读 · 2020年10月24日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
AI界的State of the Art都在这里了
机器之心
12+阅读 · 2018年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月26日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员