Automated machine learning techniques benefited from tremendous research progress in recently. These developments and the continuous-growing demand for machine learning experts led to the development of numerous AutoML tools. However, these tools assume that the entire training dataset is available upfront and that the underlying distribution does not change over time. These assumptions do not hold in a data stream mining setting where an unbounded stream of data cannot be stored and is likely to manifest concept drift. Industry applications of machine learning on streaming data become more popular due to the increasing adoption of real-time streaming patterns in IoT, microservices architectures, web analytics, and other fields. The research summarized in this paper surveys the state-of-the-art open-source AutoML tools, applies them to data collected from streams, and measures how their performance changes over time. For comparative purposes, batch, batch incremental and instance incremental estimators are applied and compared. Moreover, a meta-learning technique for online algorithm selection based on meta-feature extraction is proposed and compared while model replacement and continual AutoML techniques are discussed. The results show that off-the-shelf AutoML tools can provide satisfactory results but in the presence of concept drift, detection or adaptation techniques have to be applied to maintain the predictive accuracy over time.


翻译:最近,自动机学习技术从巨大的研究进展中受益。这些发展和对机器学习专家不断增长的需求导致许多自动ML工具的开发。然而,这些工具假定整个培训数据集是先期提供的,基本分布不会随时间而改变。这些假设在数据流采矿环境中并不存在,因为无底线数据流无法储存,并有可能显示概念的漂移。在流数据上机器学习的行业应用由于在IoT、微服务结构、网络分析学和其他领域越来越多地采用实时流模式而变得更加流行。本文所总结的研究调查的是最新的开放源码自动ML工具,将这些数据应用于从流收集的数据,并测量其性能随时间变化。为了比较目的,应用了批发、分批、递增和实例递增的估测算器和比较。此外,还提出并比较了一种基于超自然提取的在线算法选择的元学习技术,同时讨论了模型替换和持续自动ML技术。结果显示,离子流的自动ML工具可以令人满意地用于对流动的检测或流动技术进行预测。

0
下载
关闭预览

相关内容

Automator是苹果公司为他们的Mac OS X系统开发的一款软件。 只要通过点击拖拽鼠标等操作就可以将一系列动作组合成一个工作流,从而帮助你自动的(可重复的)完成一些复杂的工作。Automator还能横跨很多不同种类的程序,包括:查找器、Safari网络浏览器、iCal、地址簿或者其他的一些程序。它还能和一些第三方的程序一起工作,如微软的Office、Adobe公司的Photoshop或者Pixelmator等。
【干货书】机器学习速查手册,135页pdf
专知会员服务
124+阅读 · 2020年11月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
144+阅读 · 2019年10月27日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Arxiv
0+阅读 · 2021年8月12日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
44+阅读 · 2019年12月20日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
Techniques for Automated Machine Learning
Arxiv
4+阅读 · 2019年7月21日
Arxiv
18+阅读 · 2019年1月16日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
相关论文
Arxiv
0+阅读 · 2021年8月12日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
44+阅读 · 2019年12月20日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
Techniques for Automated Machine Learning
Arxiv
4+阅读 · 2019年7月21日
Arxiv
18+阅读 · 2019年1月16日
Top
微信扫码咨询专知VIP会员