机器学习和大数据的进步正在颠覆每个行业。然而,即使公司部署到生产中,他们也面临着巨大的挑战,随着时间的推移,性能会明显低于离线基准,这是一种被称为性能漂移的现象。由于数据分布的变化,在很长一段时间内部署的模型常常会经历性能漂移。
在这次演讲中,我们讨论了减轻性能漂移影响的方法,并举例说明了我们的方法在一个样本预测任务。利用我们在初创公司部署和监控生产级ML管道以进行预测性维护的经验,我们还解决了机器学习的几个方面,这些方面在学术界经常被忽视,比如整合非技术合作伙伴,以及将机器学习集成到敏捷框架中。这次演讲的内容包括:
使用Python、Dask和开源数据集演示一个在离线设置中训练和验证模型的示例,该模型在部署后会出现性能下降。
使用MLFlow、Prometheus和Grafana来展示如何构建工具来监视生产管道,并使不同涉众的团队能够使用正确的度量标准快速识别性能下降。
就何时在生产中对机器学习模型进行再训练提出一份标准清单。
这次演讲将是一个幻灯片演示,并附带一个Python笔记本演示。它的目标是在生产中部署和调试模型的工程师,但可能对构建基于机器学习的产品的人有更广泛的兴趣,并要求熟悉机器学习基础知识(训练/测试集,决策树)。