开源机器学习模型管理项目DVC介绍

2020 年 6 月 5 日 凡人机器学习

算法工程师往往在使用算法的过程中要不断地调整参数去找到最好的效果,俗称“调参民工”。在不断的调参过程中,会产生各种各样的模型,如何记录好这些参数与模型效果对应的关系,往往另算法工程师很头疼。所以大家都在呼唤一款实用的模型管理工具,因为有了版本管理机制才能更好的做效果比对,甚至多人协同开发。


今天就介绍一款开源的模型管理工具-DVC:https://dvc.org/doc/tutorials/get-started/experiments


1

模型版本控制的误区

在设计模型版本管理功能的时候有一个误区,就是只管理模型文件。模型版本管理这件事,要从整个机器学习pipline的角度去思考,要考虑到每次训练的数据可能不同、算法参数可能不同、评价指标metrics可能不同。


所以模型管理更是一个机器学习全链路工程的管理,这一点DVC和MLflow的设计理念都是比较好的。


2

DVC的设计理念


DVC是一个创业团队维护的开源模型管理SDK,跟客户的交互基本上是通过命令行的形式,只要“pip install dvc”就可以快速安装。


DVC可以看做是对git的一种二次封装,如下图所示,dvc checkout底层调用的就是git checkout

DVC把数据+算法脚本+Metrics当成一次代码checkout,这样就可以天然的利用git的能力进行版本管理。


3

DVC具体使用


(1)创建环境


(2)上传数据


(3)配置数据,设置训练和验证集


(4)设置metrics和生成结果


(5)产出结果


(6)不同版本的模型效果比较

baseline-experiment和bigrams-experiment是不同版本的模型,可以通过checkout不同的版本去控制不同的训练数据和模型参数版本。



登录查看更多
8

相关内容

【2020新书】使用高级C# 提升你的编程技能,412页pdf
专知会员服务
58+阅读 · 2020年6月26日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
267+阅读 · 2020年6月10日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
64+阅读 · 2020年3月26日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
77+阅读 · 2020年3月15日
专知会员服务
110+阅读 · 2020年3月12日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
197+阅读 · 2020年3月8日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
88+阅读 · 2019年10月21日
21个必须知道的机器学习开源工具!
AI100
13+阅读 · 2019年9月13日
年度大盘点:机器学习开源项目及框架
云栖社区
3+阅读 · 2018年12月17日
开源神经网络框架Caffe2全介绍
北京思腾合力科技有限公司
3+阅读 · 2017年12月12日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
开源巨献:阿里巴巴最热门29款开源项目
算法与数据结构
5+阅读 · 2017年7月14日
开源巨献:Google最热门60款开源项目
程序猿
5+阅读 · 2017年7月12日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
4+阅读 · 2019年8月7日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
6+阅读 · 2018年2月24日
VIP会员
相关VIP内容
【2020新书】使用高级C# 提升你的编程技能,412页pdf
专知会员服务
58+阅读 · 2020年6月26日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
267+阅读 · 2020年6月10日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
64+阅读 · 2020年3月26日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
77+阅读 · 2020年3月15日
专知会员服务
110+阅读 · 2020年3月12日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
197+阅读 · 2020年3月8日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
88+阅读 · 2019年10月21日
相关资讯
21个必须知道的机器学习开源工具!
AI100
13+阅读 · 2019年9月13日
年度大盘点:机器学习开源项目及框架
云栖社区
3+阅读 · 2018年12月17日
开源神经网络框架Caffe2全介绍
北京思腾合力科技有限公司
3+阅读 · 2017年12月12日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
开源巨献:阿里巴巴最热门29款开源项目
算法与数据结构
5+阅读 · 2017年7月14日
开源巨献:Google最热门60款开源项目
程序猿
5+阅读 · 2017年7月12日
Top
微信扫码咨询专知VIP会员