Github项目推荐 | Kedro:生产级机器学习开源代码库

2019 年 6 月 12 日 AI研习社

by quantumblacklabs

Kedro是一个Python库,可用于构建强大的生产就绪数据和分析管道

Kedro是什么?

“数据管道的中心。”

Kedro是一个工作流开发工具,可帮助你构建强大,可扩展,可部署,可重现和版本化的数据管道。 我们提供标准的方法,你可以:

  • 花更多时间来构建数据管道

  • 不用担心如何编写生产就绪代码

  • 标准化团队在整个项目中的协作方式

  • 工作效率更高

Kedro最初由 Aris Valtazanos 和 Nikolaos Tsaousis 设计,以解决他们在项目工作中遇到的挑战。

如何安装Kedro?

由于Kedro是一个Python包,因此只需运行以下命令即可安装:

pip install kedro

有关更详细的安装说明,包括如何设置Python虚拟环境等,请查看安装指南。

Kedro的主要特点是什么?

1.项目模板和编码标准

  • 标准且易于使用的项目模板

  • 配置证书,日志记录,数据加载和Jupyter笔记本/实验室的配置

  • 使用pytest进行测试驱动的开发

  • 集成Sphinx以生成记录良好的代码

2.数据抽象和版本控制

  • 将计算层与数据处理层分离,包括支持不同的数据格式和存储选项

  • 为你的数据集和机器学习模型进行版本控制

3.模块化和管道抽象

  • 支持纯Python函数,节点,将大块代码分成小的独立部分

  • 自动解析节点之间的依赖关系

  • (即将推出)使用Kedro-Viz可视化数据管道,Kedro-Viz是一个显示Kedro项目管道结构的工具

  • 注意:阅读我们的常见问题解答,了解我们与Airflow和Luigi等工作流程管理器的区别。

4.功能可扩展性

  • 将命令注入Kedro命令行界面(CLI)的插件系统

  • (即将推出)官方支持的插件列表:

    • Kedro-Airflow,在部署到工作流调度程序Airflow之前,可以轻松地在Kedro中对数据管道进行原型设计

    • Kedro-Docker,用于在容器内包装和运输Kedro项目的工具

  • Kedro可以部署在本地,内部部署和云(AWS,Azure和GCP)服务器或集群(EMR,Azure HDinsight,GCP和Databricks)

使用Kedro-Viz进行随机管道可视化(即将推出)

如何使用Kedro?

我们的文档说明提供了以下内容:

  • 典型的Kedro工作流程

  • 如何设置项目配置

  • 构建第一个管道

  • 如何使用kedro_cli.py提供的CLI(kedro new,kedro run,...)

注意:CLI是一个方便的工具,可以运行kedro命令,但你也可以使用python -m kedro调用Kedro CLI作为Python模块

如何找到Kedro文档?

以下CLI命令将在浏览器中打开当前版本Kedro的文档:

kedro docs

你可以点击此处查看最新稳定版本的文档。入门教程、常见问题解答等,请查看:

  • Getting started

  • Tutorial

  • FAQ

如何更新Kedro?

我们使用语义版本控制。 安全升级的最佳方法是查看我们的发行说明,了解任何值得注意的重大更新。

安装Kedro后,你可以按如下方式检查你的版本:

kedro --version

如果想将Kedro升级到其他版本,只需运行:

pip install kedro -U

License

Kedro根据Apache 2.0许可证获得许可。

Github项目地址:

https://github.com/quantumblacklabs/kedro


 点击 阅读原文 ,进入技术交流小组,查看更多Github项目推荐

登录查看更多
2

相关内容

GitHub.com 使用 Git 作为版本控制系统(version control system)提供在线源码托管的服务,同时是个有社交功能的开发者社区。 国外类似服务: Bitbucket.com
Gitlab.com
国内类似服务:
Coding.net
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
129+阅读 · 2020年3月15日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
198+阅读 · 2020年2月11日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
10月机器学习开源项目Top10
机器学习算法与Python学习
3+阅读 · 2018年10月30日
Github 项目推荐 | 用 PyTorch 0.4 实现的 YoloV3
AI研习社
9+阅读 · 2018年8月11日
GitHub上12月份最热门开源项目
程序猿
4+阅读 · 2018年1月9日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
10个深度学习软件的安装指南(附代码)
数据派THU
17+阅读 · 2017年11月18日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关资讯
10月机器学习开源项目Top10
机器学习算法与Python学习
3+阅读 · 2018年10月30日
Github 项目推荐 | 用 PyTorch 0.4 实现的 YoloV3
AI研习社
9+阅读 · 2018年8月11日
GitHub上12月份最热门开源项目
程序猿
4+阅读 · 2018年1月9日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
10个深度学习软件的安装指南(附代码)
数据派THU
17+阅读 · 2017年11月18日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
相关论文
Top
微信扫码咨询专知VIP会员