主题: Towards Automatic Machine Learning Pipeline Design
简介: 数据收集量的迅速增加,使决策的瓶颈迅速从缺乏数据转向缺乏数据科学家,以帮助分析收集的数据。此外,用于数据分析的新潜在解决方案和方法的发布速度已经超过了人类数据科学家所能遵循的速度。同时,我们注意到数据科学家在分析过程中执行的许多任务都可以自动化。自动机器学习(AutoML)研究和解决方案试图使部分甚至整个数据分析过程自动化。我们解决了自动化研究中的两个挑战: 首先,如何表示适合元学习的ML程序;第二,如何改进自动系统的评估,使之能够比较各种方法,而不仅仅是预测。为此,我们设计并实现了一个ML程序框架,该框架提供了以标准方式描述ML程序所需的所有组件。该框架是可扩展的,框架的组件之间是解耦的,例如,该框架可以用来描述使用神经网络的ML程序。我们为执行框架中描述的程序提供参考工具。我们还设计并实现了一个服务,一个元学习数据库,它存储由不同的自动化系统生成的执行ML程序的信息。
我们通过测量使用框架与执行直接调用底层库的ML程序的计算开销来评估框架。我们注意到框架的ML程序执行时间比不使用该框架的ML程序慢一个数量级,内存使用量是不使用该框架的ML程序的两倍。 通过比较使用我们的框架的10个不同的AutoML系统,我们展示了我们的框架评估AutoML系统的能力。结果表明,该框架既可以用来描述一组不同的ML程序,又可以用来明确地确定哪个自动化系统生成了最佳的ML程序。在许多情况下,生成的ML程序的性能优于由人类专家编写的ML程序。