A major bottleneck of the current Machine Learning (ML) workflow is the time consuming, error prone engineering required to get data from a datastore or a database (DB) to the point an ML algorithm can be applied to it. Hence, we explore the feasibility of directly integrating prediction functionality on top of a data store or DB. Such a system ideally: (i) provides an intuitive prediction query interface which alleviates the unwieldy data engineering; (ii) provides state-of-the-art statistical accuracy while ensuring incremental model update, low model training time and low latency for making predictions. As the main contribution we explicitly instantiate a proof-of-concept, tspDB, which directly integrates with PostgreSQL. We rigorously test tspDB's statistical and computational performance against the state-of-the-art time series algorithms, including a Long-Short-Term-Memory (LSTM) neural network and DeepAR (industry standard deep learning library by Amazon). Statistically, on standard time series benchmarks, tspDB outperforms LSTM and DeepAR with 1.1-1.3x higher relative accuracy. Computationally, tspDB is 59-62x and 94-95x faster compared to LSTM and DeepAR in terms of median ML model training time and prediction query latency, respectively. Further, compared to PostgreSQL's bulk insert time and its SELECT query latency, tspDB is slower only by 1.3x and 2.6x respectively. That is, tspDB is a real-time prediction system in that its model training / prediction query time is similar to just inserting / reading data from a DB. As an algorithmic contribution, we introduce an incremental multivariate matrix factorization based time series method, which tspDB is built off. We show this method also allows one to produce reliable prediction intervals by accurately estimating the time-varying variance of a time series, thereby addressing an important problem in time series analysis.


翻译:目前机器学习(ML) 工作流程的一大瓶颈是时间消耗, 错误易变工程, 以便从数据存储或数据库( DB) 获取数据到 ML 算法。 因此, 我们探索直接整合数据存储或 DB 上方的预测功能的可行性。 这样的系统最好:(一) 提供一个直观的预测查询界面, 缓解不易变的数据工程;(二) 提供最新水平的统计准确性, 同时确保不断更新的模型、 低的模型培训时间和低的预测时间。 由于我们明确将数据存储的校验时间和值应用到它。 因此, 我们严格测试 tspDB的统计和计算性计算功能, 包括远程插入时间序列(LSTM) 网络和深层(通过亚马逊的行业标准深度学习图书馆) 。 在标准时间序列基准上, 直线显示 AL- LAR3 数据采集的校验数据校验数据, 比较SL95 的精确度。 我们严格测试 tBDB 的统计和计算方法, 直径, 直径对时间序列的计算, 直径, 直径, 直径, 直径, 和直径, 正在显示, 直径, 直径, 直径, 直调的内, 和直径, 直调, 时间序列的, 直径, 直径调, 数据, 直调, 直径调, 直径, 直调, 时间序列, 直调, 直径, 直调, 直调, 数据, 数据, 流 流 流, 流, 数据, 流, 数据, 直调, 向, 直调, 向, 直调, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 流, 直调, 直调, 直调, 直调, 流, 流, 流, 流, 流, 流 流 流, 流 流 流, 流, 流, 流, 流, 流,

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【干货书】机器学习Primer,122页pdf
专知会员服务
106+阅读 · 2020年10月5日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Arxiv
0+阅读 · 2021年4月7日
Arxiv
0+阅读 · 2021年4月7日
Learning Discriminative Model Prediction for Tracking
Arxiv
12+阅读 · 2019年3月14日
Federated Learning for Mobile Keyboard Prediction
Arxiv
5+阅读 · 2018年11月8日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【干货书】机器学习Primer,122页pdf
专知会员服务
106+阅读 · 2020年10月5日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Top
微信扫码咨询专知VIP会员