Machine Learning (ML) and Artificial Intelligence (AI) have a dependency on data sources to train, improve and make predictions through their algorithms. With the digital revolution and current paradigms like the Internet of Things, this information is turning from static data into continuous data streams. However, most of the ML/AI frameworks used nowadays are not fully prepared for this revolution. In this paper, we proposed Kafka-ML, an open-source framework that enables the management of TensorFlow ML/AI pipelines through data streams (Apache Kafka). Kafka-ML provides an accessible and user-friendly Web UI where users can easily define ML models, to then train, evaluate and deploy them for inference. Kafka-ML itself and its deployed components are fully managed through containerization technologies, which ensure its portability and easy distribution and other features such as fault-tolerance and high availability. Finally, a novel approach has been introduced to manage and reuse data streams, which may lead to the (no) utilization of data storage and file systems.


翻译:机器学习(ML)和人工智能(AI)依靠数据来源来培训、改进和通过算法作出预测。随着数字革命和诸如Things Internet等当前模式,这种信息正在从静态数据转变为连续的数据流,然而,目前使用的ML/AI框架大多没有为这场革命做好充分准备。在本文件中,我们提出了Kafka-ML,这是一个开放源码框架,能够通过数据流管理TensorFlow ML/AI管道(Apache Kafka)。Kafka-ML提供了一个方便用户的网络界面,用户可以方便地定义ML模型,然后训练、评价和部署这些模型,以便推断。Kafka-ML本身及其部署的部件通过集装箱化技术充分管理,这些技术确保其可移动性和易于分发,以及其他特征,例如过错容忍性和高可用性。最后,我们采用了一种新的办法来管理和再利用数据流,这可能导致数据储存和档案系统的(不)利用。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
69+阅读 · 2020年3月9日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
158+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
40+阅读 · 2019年10月9日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
11+阅读 · 2018年12月4日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】深度学习思维导图
机器学习研究会
15+阅读 · 2017年8月20日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Arxiv
45+阅读 · 2019年12月20日
Arxiv
35+阅读 · 2019年11月7日
AutoML: A Survey of the State-of-the-Art
Arxiv
72+阅读 · 2019年8月14日
VIP会员
相关VIP内容
相关资讯
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
11+阅读 · 2018年12月4日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】深度学习思维导图
机器学习研究会
15+阅读 · 2017年8月20日
相关论文
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Arxiv
45+阅读 · 2019年12月20日
Arxiv
35+阅读 · 2019年11月7日
AutoML: A Survey of the State-of-the-Art
Arxiv
72+阅读 · 2019年8月14日
Top
微信扫码咨询专知VIP会员