We present DeepMVI, a deep learning method for missing value imputation in multidimensional time-series datasets. Missing values are commonplace in decision support platforms that aggregate data over long time stretches from disparate sources, and reliable data analytics calls for careful handling of missing data. One strategy is imputing the missing values, and a wide variety of algorithms exist spanning simple interpolation, matrix factorization methods like SVD, statistical models like Kalman filters, and recent deep learning methods. We show that often these provide worse results on aggregate analytics compared to just excluding the missing data. DeepMVI uses a neural network to combine fine-grained and coarse-grained patterns along a time series, and trends from related series across categorical dimensions. After failing with off-the-shelf neural architectures, we design our own network that includes a temporal transformer with a novel convolutional window feature, and kernel regression with learned embeddings. The parameters and their training are designed carefully to generalize across different placements of missing blocks and data characteristics. Experiments across nine real datasets, four different missing scenarios, comparing seven existing methods show that DeepMVI is significantly more accurate, reducing error by more than 50% in more than half the cases, compared to the best existing method. Although slower than simpler matrix factorization methods, we justify the increased time overheads by showing that DeepMVI is the only option that provided overall more accurate analytics than dropping missing values.


翻译:深度MVI是多维时间序列数据集中缺失值估算的深学习方法。 缺失值在决策支持平台中很常见, 决策支持平台长期汇总来自不同来源的数据, 而可靠的数据分析则要求谨慎处理缺失数据。 一种策略是估算缺失值, 并且存在多种多样的算法, 包括简单的内插法、 诸如 SVD 等矩阵因子化方法、 诸如 Kalman 过滤器等统计模型和最近的深层学习方法。 我们显示, 与仅仅排除缺失数据相比, 缺失值往往在总体分析中提供更差的结果。 深MVI 使用神经网络将精细的和粗粗粗的模型与一个时间序列结合起来, 可靠的数据分析要求从一个直截面上对相关序列的趋势进行。 一种策略是估算缺失值缺失值, 而多种算法, 包括一个具有新颖的共振窗口特性的时变器, 以及最近深层内嵌式的内核回归方法。 参数及其培训的精心设计, 是为了将各种缺失区块和数据流的特征进行概括化。 深深层VIVI 相比, 更精确的实验比现有五进式方法比现有五进式方法要显示, 更精确地显示, 最深层方法比现有五进化方法显示, 错误比现有五进式方法比现有错误比现有方法要少得多。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年8月8日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
39+阅读 · 2020年9月6日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
盘一盘 Python 系列 8 - Sklearn
平均机器
5+阅读 · 2019年5月30日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Discriminative Similarity for Data Clustering
Arxiv
0+阅读 · 2021年9月17日
Arxiv
5+阅读 · 2021年2月15日
Arxiv
6+阅读 · 2019年11月14日
VIP会员
相关资讯
盘一盘 Python 系列 8 - Sklearn
平均机器
5+阅读 · 2019年5月30日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员