开源项目SQLFlow,桥接MySQL、HIVE等SQL引擎与TensorFlow等机器学习引擎

2020 年 2 月 8 日 专知

【导读】开源项目SQLFlow是SQL引擎(如MySQL、HIVE等)和机器学习引擎(如TensorFlow、XGBoost等)之间的桥梁。它扩展了SQL语义,使得它能够进行模型训练、预测和解释。


近几年来,随着深度学习等机器学习技术对学术界和工业界都产生了巨大的影响。虽然许多机器学习解决方案在算法上超越了传统的算法,但是由于一些处理流程并不能与现有的数据处理标准对接等原因,使得机器学习算法的落地遇到许多困难。


工业界中,SQL已经成为了大部分数据业务的一种标准,甚至一些大厂中某些部门的数据工程师或算法工程师在日常工作中只能够通过SQL进行编程。因此,将SQL与现有的机器学习引擎对接,可以在一定程度上将机器学习引擎融入现有的标准化平台中。


论文《SQLFlow: A Bridge between SQL and Machine Learning》提出一种将MySQL、HIVE等标准化SQL引擎与TensorFlow等机器学习引擎桥接的方案SQLFlow,它的Github地址如下:

https://github.com/sql-machine-learning/sqlflow


项目效果展示:


SQLFlow提供了非常友好的SQL式的机器学习接口,让开发者可以通过SQL语句来进行标准化的数据预处理、模型训练与测试等功能。例如通过下面的SQL,直接可以实现数据的读取与模型的训练:

sqlflow> SELECT *
FROM iris.train
TO TRAIN DNNClassifier
WITH model.n_classes = 3, model.hidden_units = [10, 20]
COLUMN sepal_length, sepal_width, petal_length, petal_width
LABEL class
INTO sqlflow_models.my_dnn_model;

...
Training set accuracy: 0.96721
Done training


读取数据并使用模型进行预测的SQL也非常简洁:

sqlflow> SELECT *
FROM iris.test
TO PREDICT iris.predict.class
USING sqlflow_models.my_dnn_model;

...
Done predicting. Predict table : iris.predict


参考链接:

  • https://arxiv.org/abs/2001.06846

  • https://github.com/sql-machine-learning/sqlflow


-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,了解注册使用专知
登录查看更多
9

相关内容

SQL 全名是结构化查询语言,是用于数据库中的标准数据查询语言,IBM 公司最早使用在其开发的数据库系统中。
专知会员服务
109+阅读 · 2020年3月12日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
68+阅读 · 2020年1月17日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
社区分享 | Spark 玩转 TensorFlow 2.0
TensorFlow
15+阅读 · 2020年3月18日
【资源】kaggle数据科学竞赛方案集锦
专知
27+阅读 · 2019年9月4日
CVPR 2019 论文开源项目合集
专知
18+阅读 · 2019年4月7日
TensorFlow 2.0如何在Colab中使用TensorBoard
专知
17+阅读 · 2019年3月15日
深度学习TensorFlow实现集合
专知
10+阅读 · 2018年9月8日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
Arxiv
5+阅读 · 2019年10月11日
Knowledge Flow: Improve Upon Your Teachers
Arxiv
5+阅读 · 2019年4月11日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Arxiv
9+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2017年7月23日
VIP会员
相关VIP内容
相关资讯
社区分享 | Spark 玩转 TensorFlow 2.0
TensorFlow
15+阅读 · 2020年3月18日
【资源】kaggle数据科学竞赛方案集锦
专知
27+阅读 · 2019年9月4日
CVPR 2019 论文开源项目合集
专知
18+阅读 · 2019年4月7日
TensorFlow 2.0如何在Colab中使用TensorBoard
专知
17+阅读 · 2019年3月15日
深度学习TensorFlow实现集合
专知
10+阅读 · 2018年9月8日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员