Big Data are rapidly produced from various heterogeneous data sources. They are of different types (text, image, video or audio) and have different levels of reliability and completeness. One of the most interesting architectures that deal with the large amount of emerging data at high velocity is called the lambda architecture. In fact, it combines two different processing layers namely batch and speed layers, each providing specific views of data while ensuring robustness, fast and scalable data processing. However, most papers dealing with the lambda architecture are focusing one single type of data generally produced by a single data source. Besides, the layers of the architecture are implemented independently, or, at best, are combined to perform basic processing without assessing either the data reliability or completeness. Therefore, inspired by the lambda architecture, we propose in this paper a generic multimodal architecture that combines both batch and streaming processing in order to build a complete, global and accurate insight in near-real-time based on the knowledge extracted from multiple heterogeneous Big Data sources. Our architecture uses batch processing to analyze the data structures and contents, build the learning models and calculate the reliability index of the involved sources, while the streaming processing uses the built-in models of the batch layer to immediately process incoming data and rapidly provide results. We validate our architecture in the context of urban traffic management systems in order to detect congestions.


翻译:大型数据来自多种不同的数据源,它们迅速生成,来自不同类型(文字、图像、视频或音频),具有不同程度的可靠性和完整性。处理大量高速数据的最有趣的结构之一是羊羔结构。事实上,它将两个不同的处理层,即批量和速度层结合起来,每个层提供具体的数据观点,同时确保数据稳健、快速和可缩放的数据处理;然而,处理羊羔结构的大多数文件都集中处理一种一般由单一数据源产生的单一类型的数据。此外,结构层是独立执行的,或者最好在不评估数据可靠性或完整性的情况下进行基本处理。因此,在羊驼结构的启发下,我们在本文件中建议建立一个通用的多式联运结构,将批量和流处理结合起来,以便根据从多种不同大数据源提取的知识建立完整、全球和准确的近实时洞察力。我们的结构利用批量处理来分析数据结构和内容,建立学习模型,并计算有关来源的可靠性指数,而没有评估数据可靠性。因此,在流处理过程中,在羊羔羊驼结构的启发下,我们利用正在建的模型,以快速地检测城市管理结构。

0
下载
关闭预览

相关内容

Processing 是一门开源编程语言和与之配套的集成开发环境(IDE)的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础,并运用于大量的新媒体和互动艺术作品中。
专知会员服务
60+阅读 · 2020年3月19日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
【电子书推荐】Data Science with Python and Dask
专知会员服务
43+阅读 · 2019年6月1日
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
已删除
将门创投
3+阅读 · 2019年1月8日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
8+阅读 · 2020年6月15日
Arxiv
3+阅读 · 2018年4月3日
Arxiv
6+阅读 · 2018年3月31日
Arxiv
7+阅读 · 2018年3月21日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
【电子书推荐】Data Science with Python and Dask
专知会员服务
43+阅读 · 2019年6月1日
相关资讯
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
已删除
将门创投
3+阅读 · 2019年1月8日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员