Machine Learning (ML) and Artificial Intelligence (AI) have a dependency on data sources to train, improve and make predictions through their algorithms. With the digital revolution and current paradigms like the Internet of Things, this information is turning from static data into continuous data streams. However, most of the ML/AI frameworks used nowadays are not fully prepared for this revolution. In this paper, we proposed Kafka-ML, an open-source framework that enables the management of TensorFlow ML/AI pipelines through data streams (Apache Kafka). Kafka-ML provides an accessible and user-friendly Web User Interface where users can easily define ML models, to then train, evaluate and deploy them for inference. Kafka-ML itself and its deployed components are fully managed through containerization technologies, which ensure its portability and easy distribution and other features such as fault-tolerance and high availability. Finally, a novel approach has been introduced to manage and reuse data streams, which may lead to the (no) utilization of data storage and file systems.


翻译:机器学习(ML)和人工智能(AI)依靠数据来源来培训、改进和通过算法作出预测。随着数字革命和诸如Things Internet等当前模式,这种信息正在从静态数据转变为连续的数据流,然而,目前使用的ML/AI框架大多没有为这场革命做好充分准备。在本文件中,我们提出了Kafka-ML,这是一个开放源码框架,能够通过数据流管理TensorFlow ML/AI管道(Apache Kafka)。Kafka-ML提供了一个方便用户的网络用户界面,用户可以方便地定义ML模型,然后训练、评价和部署这些模型,以便推断。Kafka-ML本身及其部署的组件通过集装箱化技术充分管理,确保其可移动性、易于传播,以及其它特征,例如过错容忍性和高可用性。最后,我们采用了一种新的办法来管理和再利用数据流,这可能导致数据储存和档案系统的(不)利用。

2
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
40+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Arxiv
112+阅读 · 2020年2月5日
Arxiv
45+阅读 · 2019年12月20日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
Arxiv
4+阅读 · 2019年1月1日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
开发者应当了解的18套机器学习平台
深度学习世界
5+阅读 · 2018年8月14日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
相关论文
Arxiv
112+阅读 · 2020年2月5日
Arxiv
45+阅读 · 2019年12月20日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
Arxiv
4+阅读 · 2019年1月1日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
6+阅读 · 2016年1月15日
Top
微信扫码咨询专知VIP会员