工业互联时代,每天数以亿计的传感器源源不断生成时间序列,用以记录工业设备的温度、振动、压力、曲度和张力等参数。如何从这些非结构化的时间序列中挖掘出有价值信息,并运用于状态监测、故障诊断和控制决策,引起了广泛的关注和研究。随着数据规模日益增长,能够提供较为完备数据分析算法库的主流单机环境如Matlab、R等,已无法较好地应对大规模时间序列分析场景下的数据处理需求。而现有的并行分析算法数量有限,常与平台相互绑定,更换平台需对算法进行二次开发,可扩展性较差。本文旨在设计一种通用的近似解分析框架,支持第三方算法快速实现并行化,解决因数据规模过大而导致的算法适用性问题。分析框架主要包含任务划分、治理和合并三个步骤。任务划分通过冗余保留了数据的局部相关性,生成相互独立的子任务,减少分布式节点之间的数据通信和同步开销。对于任务划分问题,本文提出了近似解代价模型,得到了最优的任务划分方案。基于Spark平台设计并实现了原型系统,实验结果表明,该系统在确保分析结果准确性的前提下,其加速能力随着并行程度保持近似线性的增长,解决了单机算法的数据规模受限问题。同时,该系统易于集成与扩展,使数据分析人员免于算法重复开发。

成为VIP会员查看完整内容
58

相关内容

专知会员服务
40+阅读 · 2020年8月14日
鲁棒模式识别研究进展
专知会员服务
40+阅读 · 2020年8月9日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
Tensorflow框架是如何支持分布式训练的?
AI100
9+阅读 · 2019年3月26日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
Anomalous Instance Detection in Deep Learning: A Survey
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
5+阅读 · 2018年3月28日
VIP会员
相关资讯
微信扫码咨询专知VIP会员