by quantumblacklabs
Kedro是一个Python库,可用于构建强大的生产就绪数据和分析管道
“数据管道的中心。”
Kedro是一个工作流开发工具,可帮助你构建强大,可扩展,可部署,可重现和版本化的数据管道。 我们提供标准的方法,你可以:
花更多时间来构建数据管道
不用担心如何编写生产就绪代码
标准化团队在整个项目中的协作方式
工作效率更高
Kedro最初由 Aris Valtazanos 和 Nikolaos Tsaousis 设计,以解决他们在项目工作中遇到的挑战。
由于Kedro是一个Python包,因此只需运行以下命令即可安装:
pip install kedro
有关更详细的安装说明,包括如何设置Python虚拟环境等,请查看安装指南。
标准且易于使用的项目模板
配置证书,日志记录,数据加载和Jupyter笔记本/实验室的配置
使用pytest进行测试驱动的开发
集成Sphinx以生成记录良好的代码
将计算层与数据处理层分离,包括支持不同的数据格式和存储选项
为你的数据集和机器学习模型进行版本控制
支持纯Python函数,节点,将大块代码分成小的独立部分
自动解析节点之间的依赖关系
(即将推出)使用Kedro-Viz可视化数据管道,Kedro-Viz是一个显示Kedro项目管道结构的工具
注意:阅读我们的常见问题解答,了解我们与Airflow和Luigi等工作流程管理器的区别。
将命令注入Kedro命令行界面(CLI)的插件系统
(即将推出)官方支持的插件列表:
Kedro-Airflow,在部署到工作流调度程序Airflow之前,可以轻松地在Kedro中对数据管道进行原型设计
Kedro-Docker,用于在容器内包装和运输Kedro项目的工具
Kedro可以部署在本地,内部部署和云(AWS,Azure和GCP)服务器或集群(EMR,Azure HDinsight,GCP和Databricks)
使用Kedro-Viz进行随机管道可视化(即将推出)
我们的文档说明提供了以下内容:
典型的Kedro工作流程
如何设置项目配置
构建第一个管道
如何使用kedro_cli.py提供的CLI(kedro new,kedro run,...)
注意:CLI是一个方便的工具,可以运行kedro命令,但你也可以使用python -m kedro调用Kedro CLI作为Python模块
以下CLI命令将在浏览器中打开当前版本Kedro的文档:
kedro docs
你可以点击此处查看最新稳定版本的文档。入门教程、常见问题解答等,请查看:
Getting started
Tutorial
FAQ
我们使用语义版本控制。 安全升级的最佳方法是查看我们的发行说明,了解任何值得注意的重大更新。
安装Kedro后,你可以按如下方式检查你的版本:
kedro --version
如果想将Kedro升级到其他版本,只需运行:
pip install kedro -U
Kedro根据Apache 2.0许可证获得许可。
Github项目地址:
https://github.com/quantumblacklabs/kedro
点击 阅读原文 ,进入技术交流小组,查看更多Github项目推荐