Interactive response time is important in analytical pipelines for users to explore a sufficient number of possibilities and make informed business decisions. We consider a forecasting pipeline with large volumes of high-dimensional time series data. Real-time forecasting can be conducted in two steps. First, we specify the portion of data to be focused on and the measure to be predicted by slicing, dicing, and aggregating the data. Second, a forecasting model is trained on the aggregated results to predict the trend of the specified measure. While there are a number of forecasting models available, the first step is the performance bottleneck. A natural idea is to utilize sampling to obtain approximate aggregations in real time as the input to train the forecasting model. Our scalable real-time forecasting system FlashP (Flash Prediction) is built based on this idea, with two major challenges to be resolved in this paper: first, we need to figure out how approximate aggregations affect the fitting of forecasting models, and forecasting results; and second, accordingly, what sampling algorithms we should use to obtain these approximate aggregations and how large the samples are. We introduce a new sampling scheme, called GSW sampling, and analyze error bounds for estimating aggregations using GSW samples. We introduce how to construct compact GSW samples with the existence of multiple measures to be analyzed. FlashP is deployed in Alibaba for data scientists to analyze and predict the status of advertisement slots in real time. We conduct experiments to evaluate our solution and compare it with alternatives on real data.


翻译:在分析管道中,互动反应时间对于用户探索足够数量的可能性和作出知情的商业决定十分重要。我们考虑的是具有大量高维时间序列数据的预测管道,我们考虑的是具有大量高维时间序列数据的预测管道。实时预测可以分两个步骤进行。首先,我们具体说明数据重点应集中的部分,以及通过切片、刻片和汇总数据而预测的措施。第二,对预测模型进行了总体结果的培训,以预测特定措施的趋势。虽然有一些预测模型,但第一步是业绩瓶颈。一个自然的想法是利用抽样来实时获取大约的集合,作为用于培训预测模型的投入。我们可缩放的实时预测系统FlashP(Flash Survemention)是建立在这一想法基础上的,本文要解决两大挑战:首先,我们需要弄清大约的汇总如何影响预测模型的适合性和预测结果;第二,因此,我们应该使用哪些抽样算法来获取这些近标集和样本的大小。我们引入了一个新的取样计划,称为GSW抽样取样,我们用GSW的实时实时实时预测系统来分析我们所部署的样品的模型,我们用G-Bassimalassimal 的样品的模型来进行我们用什么时间来分析。我们用GSV的样品的模型的模型的模型的模型来分析。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
已删除
将门创投
3+阅读 · 2019年9月4日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Arxiv
0+阅读 · 2021年3月9日
Arxiv
0+阅读 · 2021年3月9日
Arxiv
0+阅读 · 2021年3月8日
Arxiv
0+阅读 · 2021年3月7日
Arxiv
15+阅读 · 2021年2月19日
Arxiv
35+阅读 · 2021年1月27日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
3+阅读 · 2019年9月4日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Top
微信扫码咨询专知VIP会员