【加州大学伯克利分校】自动机器学习流程设计技术报告,105页pdf

2019 年 9 月 15 日 专知
【加州大学伯克利分校】自动机器学习流程设计技术报告,105页pdf

【导读】自动机器学习是学术界和工业界关注的焦点。加州大学伯克利分校Mitar Milutinovic撰写了一份自动机器学习流程设计技术报告,共105页pdf,涵盖自动机器学习概念、元素、框架流程等,很好的学习资料。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2019/EECS-2019-123.html


导读


数据收集量的迅速增加,使决策的瓶颈迅速从缺乏数据转向缺乏数据科学家,以帮助分析收集的数据。此外,用于数据分析的新潜在解决方案和方法的发布速度已经超过了人类数据科学家所能遵循的速度。同时,我们注意到数据科学家在分析过程中执行的许多任务都可以自动化。自动机器学习(AutoML)研究和解决方案试图使部分甚至整个数据分析过程自动化。


我们解决了自动化研究中的两个挑战: 首先,如何表示适合元学习的ML程序;第二,如何改进自动系统的评估,使之能够比较各种方法,而不仅仅是预测。


为此,我们设计并实现了一个ML程序框架,该框架提供了以标准方式描述ML程序所需的所有组件。该框架是可扩展的,框架的组件之间是解耦的,例如,该框架可以用来描述使用神经网络的ML程序。我们为执行框架中描述的程序提供参考工具。我们还设计并实现了一个服务,一个元学习数据库,它存储由不同的自动化系统生成的执行ML程序的信息。


我们通过测量使用框架与执行直接调用底层库的ML程序的计算开销来评估框架。我们注意到框架的ML程序执行时间比不使用该框架的ML程序慢一个数量级,内存使用量是不使用该框架的ML程序的两倍。


通过比较使用我们的框架的10个不同的AutoML系统,我们展示了我们的框架评估AutoML系统的能力。结果表明,该框架既可以用来描述一组不同的ML程序,又可以用来明确地确定哪个自动化系统生成了最佳的ML程序。在许多情况下,生成的ML程序的性能优于由人类专家编写的ML程序。


摘要目录:


流程示例


请关注专知公众号(点击上方蓝色关注

  • 后台回复“AMLP” 就可以获取所有自动机器学习流程设计报告论文下载链接~ 



-END-

专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!560+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
22

相关内容

自动机器学习(AutoML)是将机器学习应用于实际问题的过程的自动化过程。AutoML涵盖了从原始数据集到可部署的机器学习模型的完整管道。提出将AutoML作为基于人工智能的解决方案来应对不断增长的应用机器学习的挑战。 AutoML的高度自动化允许非专家使用机器学习模型和技术,而无需首先成为该领域的专家。 从机器学习角度讲,AutoML 可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用;从自动化角度讲,AutoML 则可以看作是设计一系列高级的控制系统去操作机器学习模型,使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

找到有合适技能的人。本书阐明了创建高效能数据集成团队的最佳实践,使您能够理解计划、设计和监视一次性迁移和日常集成系统的技能和需求、文档和解决方案。

数据的增长是爆炸式的。随着跨企业系统的多个信息源的不断到达,将这些系统组合成一个单一的、内聚的、可记录的单元变得比以往任何时候都更加重要。但是,与其他软件规程相比,集成的方法有很大的不同,它要求能够编写代码、协作并将复杂的业务规则分解为可伸缩的模型。

数据迁移和集成可能很复杂。在许多情况下,项目团队将实际的迁移保留到项目的最后一个周末,任何问题都可能导致错过最后期限,或者在最坏的情况下导致需要在部署后进行协调的数据损坏。本书详细介绍了如何进行战略规划以避免这些最后时刻的风险,以及如何为未来的集成项目构建正确的解决方案。

你会学到什么

  • 理解集成的“语言”,以及它们在优先级和所有权方面的关系
  • 创建有价值的文档,带领您的团队从发现到部署
  • 研究当今市场上最重要的集成工具
  • 监视您的错误日志,并查看输出如何增加持续改进的周期
  • 为整个企业提供有价值的集成解决方案

这本书是给谁看的

构建相应实践的执行和集成团队领导。它也适用于需要额外熟悉ETL工具、集成过程和相关项目可交付成果的集成架构师、开发人员和业务分析人员

成为VIP会员查看完整内容
0
59

总结

对象是Java、Python、c#等语言的核心概念。应用对象设计的最佳实践意味着您的代码将易于读、写和维护。对象设计风格指南捕捉了几十种创建高质量的OO代码的技术,这些代码可以经受住时间的考验。这些例子都是非常熟悉的伪代码,您可以将这些教学技术应用于任何OO语言,从c++到PHP。

对这项技术

编写良好的OO代码是阅读、修改和调试的乐趣。通过掌握本书中介绍的对象设计的通用最佳实践来提升您的编码风格。这些清晰呈现的规则适用于任何OO语言,最大限度地提高代码库的清晰度和持久性,并提高您和您的团队的生产力。

关于这本书

对象设计风格指南提供了几十种编写面向对象代码的专业技术。在其中,经验丰富的开发人员Matthias Noback列出了构造对象、定义方法、更改和公开状态等方面的设计规则。所有示例都使用非常熟悉的伪代码,因此您可以按照自己喜欢的语言进行学习。在您探索对象设计的重要场景和挑战时,您将一个案例一个案例地研究,然后通过一个简单的web应用程序演示不同类型的对象如何有效地协同工作。

里面有什么

  • 广泛对象的通用设计规则

  • 测试对象的最佳实践

  • 常见对象类型的目录

  • 每个章节的练习来测试你的对象设计技能

成为VIP会员查看完整内容
0
65

【导读】这本书对自动化机器学习(AutoML)的一般化方法进行了全面的阐述,并且收集了以这些方法为基础的系统的描述和一系列关于自动化机器学习系统领域的挑战。最近,机器学习在商业领域取得的成就和该领域的快速增长对机器学习产生了大量的需求,尤其是可以很容易地使用,并且不需要专家知识的机器学习方法。然而,当前许多表现优异的机器学习方法的大多都依赖人类专家去手动选择适当的机器学习架构以及模型的超参数(深度学习架构或者更加传统的机器学习方法)。为了克服这个问题,AutoML基于优化原理和机器学习本身去逐步实现机器学习的自动化。这本书可以为为研究人员和高年级学生提供一个进入这个快速发展的领域的切入点,同时也为打算在工作中使用AutoML的从业者提供参考。

第一部分 自动机器学习方法

每个机器学习系统都有超参数,而自动化机器学习最基本的任务就是自动设置这些超参数来优化性能。尤其是最近的深度神经网络严重依赖对于神经网络的结构、正则化和优化等超参数的选择。自动优化超参数(HPO)有几个重要的用例:​

  • 减少机器学习应用过程中所需的人力。这在自动化机器学习(AutoML)的上下文中尤其重要。
  • 提高机器学习算法的性能(根据实际问题调整算法);这已经在一些研究中对重要的机器学习基准方法产生了效果。
  • 提高科学研究的再现性和公平性。自动化的HPO显然比手工搜索更具可重复性。它使得不同的方法可以公平的比较,因为不同的方法只有在它们在相同级别的问题上调优时才能公平地进行比较。

第二部分 自动化机器学习系统

越来越多的非领域专家开始学习使用机器学习工具,他们需要非独立的解决方案。机器学习社区通过开源代码为这些用户提供了大量复杂的学习算法和特征选择方法,比如WEKA和mlr。这些开源包需要使用者做出两种选择:选择一种学习算法,并通过设置超参数对其进行定制。然而想要一次性做出正确的选择是非常具有挑战性的,这使得许多用户不得不通过算法的声誉或直觉来进行选择,并将超参数设置为默认值。当然,采用这种方法所获得的性能要比最佳方法进行超参数设置差得多。

第三部分 自动化机器学习面临的挑战

直到十年之前,机器学习还是一门鲜为人知的学科。对于机器学习领域的科学家们来说,这是一个“卖方市场”:他们研究产出了大量的算法,并不断地寻找新的有趣的数据集。大的互联网公司积累了大量的数据,如谷歌,Facebook,微软和亚马逊已经上线了基于机器学习的应用,数据科学竞赛也吸引了新一代的年轻科学家。如今,随着开放性数据的增加,政府和企业不断发掘机器学习的新的应用领域。然而,不幸的是机器学习并不是全自动的:依旧很难确定哪个算法一定适用于哪种问题和如何选择超参数。完全自动化是一个无界的问题,因为总是有一些从未遇到过的新设置。AutoML面临的挑战包括但不限于:

  • 监督学习问题(分类和回归)
  • 特征向量表示问题
  • 数据集特征分布问题(训练集,验证集和测试集分布相同)
  • 小于200兆字节的中型数据集
  • 有限的计算资源
成为VIP会员查看完整内容
0
94
小贴士
相关VIP内容
专知会员服务
125+阅读 · 2020年6月24日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
38+阅读 · 2020年3月9日
IBM《人工智能白皮书》(2019版),12页PDF,IBM编
专知会员服务
8+阅读 · 2019年11月8日
自动机器学习:最新进展综述
专知会员服务
64+阅读 · 2019年10月13日
相关论文
Jointly Modeling Aspect and Sentiment with Dynamic Heterogeneous Graph Neural Networks
Shu Liu,Wei Li,Yunfang Wu,Qi Su,Xu Sun
8+阅读 · 2020年4月14日
Towards Automated Machine Learning: Evaluation and Comparison of AutoML Approaches and Tools
Anh Truong,Austin Walters,Jeremy Goodsitt,Keegan Hines,C. Bayan Bruss,Reza Farivar
3+阅读 · 2019年9月3日
Joaquin Vanschoren
109+阅读 · 2018年10月8日
Thomas Elsken,Jan Hendrik Metzen,Frank Hutter
10+阅读 · 2018年9月5日
Guillaume Klein,Yoon Kim,Yuntian Deng,Vincent Nguyen,Jean Senellart,Alexander M. Rush
3+阅读 · 2018年5月28日
Yongfeng Zhang,Xu Chen
10+阅读 · 2018年5月13日
Markus Schedl,Hamed Zamani,Ching-Wei Chen,Yashar Deldjoo,Mehdi Elahi
7+阅读 · 2018年3月21日
Peter J. Liu,Mohammad Saleh,Etienne Pot,Ben Goodrich,Ryan Sepassi,Lukasz Kaiser,Noam Shazeer
6+阅读 · 2018年1月30日
Top