【导读】ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的最高级别的学术会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为 A 类会议。自 1995 年以来,KDD 已经连续举办了26届,今年将于2021年8月14日至18日举办,今年的会议主办地在新加坡。

来自阿里巴巴和ETH的研究人员在KDD2021上将给出关于自动机器学习的教程,非常值得关注!

从社交网络、在线图像/视频分享平台、电子商务到教育、医疗保健等,机器学习方法已被用于各种现实世界的应用。然而,机器学习方法的几个组成部分,包括数据表示、超参数和模型体系架构,会在很大程度上影响它们在实践中的性能。此外,数据规模和模型规模的爆炸式增长,使得机器学习开发人员对这些组件的优化越来越费时。为了应对这些挑战,自动化机器学习(AutoML)旨在自动化应用机器学习方法解决现实应用任务的过程,在保持良好性能的同时减少机器学习方法的调试时间。在本教程中,我们将介绍AutoML的主要研究主题,包括超参数优化、神经架构搜索和元学习。AutoML的两个新兴主题,基于DNN的特征生成和机器学习引导的数据库,也将被讨论,因为它们是真实应用的重要组件。对于每一个主题,我们都将以来自行业的例子来激励它,说明最先进的方法,并从行业和学术界的角度讨论它们的优缺点。我们还将根据我们在业界的经验和学术界的趋势讨论一些未来的研究方向。

https://joneswong.github.io/KDD21AutoMLTutorial/

我们将首先从云计算和机器学习作为一种服务的角度,通过真实世界的例子来引出对AutoML的研究。然后介绍了AutoML的主要研究课题,包括超参数优化、神经结构搜索和元学习。我们还将涵盖AutoML的两个新兴主题,自动特征生成和机器学习引导数据库,这是现实世界工业应用的重要组成部分。

超参数优化

我们将现有的HPO方法大致分为超参数配置搜索和超参数调度搜索两类。超参数配置搜索方法假设最优超参数是一组固定值,而超参数调度搜索方法放宽了这一假设,允许超参数在单个轨迹中改变。对于超参数配置搜索方法,我们将把现有方法作为三个子类进行讨论:无模型[5,8]、贝叶斯优化[19]和基于梯度的方法。对于超参数调度,两种具有代表性的超参数改变方法是基于梯度的方法,如自调整网络[13]和基于突变的方法,如基于群体的训练[7]和HyperMutation[21]。

神经架构搜索 NAS

我们从三个方面讨论了现有的神经结构搜索算法的特点,即搜索空间、搜索策略和评估策略。对于搜索空间,我们不仅回顾了确定架构所考虑的维度,还强调了精细化的搜索空间,希望它在实践中带来一个竞争性的架构,尽管它在理论上不是最优的。对于搜索策略,我们将简要介绍进化、强化学习和抽样算法,但重点是可微分的方法,这是大多数商业客户在工业中负担得起的。在设计评估策略时,最关键的因素是考虑精度和效率之间的权衡。因此,我们将回顾加速性能估计的方法,包括学习曲线外推、低保真度估计和权重共享,其中权重共享的不稳定性问题将被详细讨论。

元学习

作为一个深刻的研究主题,对元学习的全面回顾超出了本教程的范围。相反,我们将集中讨论它在AutoML中的应用。从云计算的角度来看,云服务提供商可以为上述讨论的任务积累大量的示例。虽然每个例子的学习任务可能不同,但元学习提供了一种从收集的例子中提取整体元知识的方法,这样我们就可以用较少的尝试来寻找新的学习任务的最优配置。一般来说,元学习假设的是获得一堆来自相同分布的任务,由于学习任务的异质性,这在这种设置下不能完全满足。因此,我们全面回顾了最近提出的针对新任务定制全局元知识的方法,包括MAML[3]、Reptile[16]、SNAIL[15]和Relational Meta-Learning[25]。

自动特征生成 目前关于自动特征生成的研究大致可以分为两类:基于搜索的和基于DNN的。基于搜索的方法[12]专注于设计不同的搜索策略,尽可能多地剔除待评估的候选对象,同时保持最有用的交互特性。尽管这些机制可以减少要遍历的搜索空间,但由于它们的反复试验性质,在实践中所需的时间和计算资源通常是无法忍受的。另一方面,基于DNN的方法[10,20]设计特定的神经结构来表达不同特征之间的相互作用。但这一优势是以隐式特性交互为代价的,因为很难从注意力权重[23]中准确解释哪些交互特性是有用的。我们将从云客户的角度进一步讨论这两类产品,为研究院提供补充意见。

机器学习引导数据库

最近,有许多利用机器学习促进数据库组件的工作,如索引[2,4,6,9],查询优化[14,22],和选择性估计[24]。尽管在过去的几十年里,数据库社区已经对这些组件进行了广泛的研究,但在机器学习的帮助下,通过学习隐藏的但有用的数据分布并将这些信息合并到数据库系统中,有可能实现这些组件的自动化,这将带来很有希望的性能改进。

目录:

13:00PM--13:10PM Welcome from Organizers 13:10PM--13:40PM Hyperparameter Optimization (HPO) 13:40PM--14:10PM Neural Architecture Search (NAS) 14:10PM--14:30PM Meta-learning 14:30PM--15:00PM Auto Feature Generation 15:00PM--15:25PM End-to-End AutoML 15:25PM--15:50PM ML-Guided Database 15:50PM--15:55PM AutoML Tools 15:55PM--16:00PM Closing Remarks

成为VIP会员查看完整内容
0
67

相关内容

自动机器学习(AutoML)是将机器学习应用于实际问题的过程的自动化过程。AutoML涵盖了从原始数据集到可部署的机器学习模型的完整管道。提出将AutoML作为基于人工智能的解决方案来应对不断增长的应用机器学习的挑战。 AutoML的高度自动化允许非专家使用机器学习模型和技术,而无需首先成为该领域的专家。 从机器学习角度讲,AutoML 可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用;从自动化角度讲,AutoML 则可以看作是设计一系列高级的控制系统去操作机器学习模型,使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

【导读】ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的最高级别的学术会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为 A 类会议。自 1995 年以来,KDD 已经连续举办了26届,今年将于2021年8月14日至18日举办,今年的会议主办地在新加坡。

来自 Adelaide大学的研究人员在KDD2021上将给出关于可解释深度异常检测的教程,非常值得关注!

异常检测可以为许多安全关键或具有商业意义的现实世界应用提供重要的洞察,如极端气候事件检测、机械故障检测、恐怖主义检测、欺诈检测、恶意URL检测,仅举几例。由于这个意义,它已经被广泛研究了几十年,有许多浅显的方法被提出。然而,这些方法面临着各种数据复杂性的挑战,如高维性、数据相关性、数据异构性等。近年来,深度学习在解决这些复杂性方面取得了巨大的成功,在广泛的应用中,但由于异常的一些独特特征,例如稀罕性、异质性、无界性、以及收集大规模异常数据的高昂成本。因此,针对异常检测的深度学习技术进行了大量的研究。这些研究表明,在解决浅层异常检测方法在不同应用环境中失败的一些主要挑战方面取得了巨大成功。

在本教程中,我们旨在全面回顾基于深度学习的异常检测和解释的进展。首先介绍了12类最先进的深度异常检测方法的关键直觉、目标函数、基本假设和优缺点。异常解释通常与异常检测一样重要,这对于深度检测模型——“黑箱”模型尤其如此,因此我们也介绍了一些用于为深度检测模型提供异常解释的原则方法。与许多其他数据挖掘任务相比,深度异常检测的探索要少得多。我们旨在通过本教程积极推动其在算法、理论和评估方面的发展。

https://sites.google.com/site/gspangsite/kdd21_tutorial

成为VIP会员查看完整内容
0
68

推荐系统在我们的日常生活中发挥着越来越重要的作用,特别是在许多以用户为导向的在线服务中,推荐系统在缓解信息过载问题方面发挥着重要作用。推荐系统的目标是通过利用用户和物品的交互来提高匹配的准确性,识别出一组最符合用户显性或隐性偏好的对象(即物品)。

随着深度神经网络(DNNs)在过去几十年的快速发展,推荐技术已经取得了良好的性能。然而,现有的基于DNN的方法在实践中存在一些缺陷。更具体地说,他们认为推荐过程是一个静态的过程,并按照一个固定的贪心策略进行推荐; 现有的大多数基于DNN的推荐系统都是基于手工制作的超参数和深度神经网络架构;它们将每个交互视为单独的数据实例,而忽略了实例之间的关系。

在本教程中,我们将全面介绍深度推荐系统中解决上述问题的先进技术的最新进展,包括深度强化学习(DRL)、自动机器学习(AutoML)和图神经网络(GNN)。

通过这种方式,我们希望这三个领域的研究人员能够对空间有更深刻的理解和准确的洞察,激发更多的想法和讨论,促进推荐技术的发展。

https://deeprs-tutorial.github.io/

成为VIP会员查看完整内容
0
91

自动化机器学习支持用户、开发人员和研究人员快速开发新的ML应用程序。然而,AutoML工具的输出并不总是能够很容易地用人类的直觉或专家知识来解释,因此专家有时会对AutoML工具缺乏信任。因此,我们开发了一些方法,提高了AutoML系统的透明度和可解释性,增加了对AutoML工具的信任,并对其他不透明的优化过程产生了有价值的见解。解释AutoML的方法包括:

超参数的重要性: 哪些超参数(或其他设计决策)对提高ML系统的性能具有全局重要性?[Hutter等人2014]

自动消融研究: 如果一个AutoML工具从一个给定的配置开始(例如,由用户或ML算法的原始开发人员定义),与AutoML工具返回的配置相比,哪些更改是重要的,以实现观察到的性能改进?[Biedenkapp等人2017]

超参数效果的可视化: 我们如何可视化更改超参数设置的效果,无论是局部的还是全局的?[Hutter等人2014,Biedenkapp等人2018]

采样过程的可视化: 在配置空间的哪些区域有一个AutoML工具在什么时候采样,为什么采样?我们在那儿能看到哪场演出?[Biedenkapp等人2018]

https://www.automl.org/xautoml/

成为VIP会员查看完整内容
0
34

2021年第14届国际网络搜索与数据挖掘会议WSDM将在2021年3月8日到12日于线上举行。今年此次会议共收到了603份有效投稿,最终录取篇数为112篇,录取率为18.6%。在WSDM上,有关于《偏见感知推荐系统的进展》教程值得关注!

排名和推荐系统在当今的网络平台上扮演着关键角色,肯定会影响到大量用户的信息搜索行为。然而,这些系统是根据经常传递不平衡和不平等的数据进行训练的,这些模式可能在系统提供给最终用户的结果中被捕捉和强调,从而产生偏见,提供不公平的结果。鉴于偏见信息寻求成为一个威胁,

(1) 研究跨学科概念和问题空间,

(2) 制定和设计一个bias-aware算法管道,和

(3)和减轻落地的偏见的影响,同时保留底层系统的有效性,正在迅速成为热门的研究热点。

本教程是围绕这个主题组织的,向WSDM社区介绍了在评估和缓解推荐系统中的数据和算法偏差方面的最新进展。我们将首先介绍概念基础,通过调研当前的技术状态和描述真实世界的例子,从几个角度(例如,伦理和系统的目标)偏见如何影响推荐算法。

本教程将继续系统地介绍算法解决方案,以便在推荐设计过程中发现、评估和减少偏见。然后,一个实用的部分将向与会者提供处理前、处理中和处理后消除偏见算法的具体实现,利用开源工具和公共数据集。在本部分中,教程参与者将参与偏倚对策的设计,并阐明对利益相关者的影响。最后,我们将分析这个充满活力和迅速发展的研究领域中出现的开放问题和未来的方向,从而结束本教程。

https://biasinrecsys.github.io/wsdm2021/

成为VIP会员查看完整内容
0
40

神经架构搜索(NAS)是一个很有前途的领域。首先,我将讨论围绕NAS建立科学社区的各种工作,包括基准测试、最佳实践和开放源码框架。然后,我将讨论该领域几个令人兴奋的方向:(1)广泛的NAS加速技术;(2)在Auto-PyTorch中结合NAS +超参数优化,实现现成的AutoML;(3)神经集成搜索(NES)的扩展问题定义,它搜索一组互补的架构,而不是像NAS中搜索的单一架构。

成为VIP会员查看完整内容
0
30

深入机器学习模型的超参数调整,关注什么是超参数以及它们是如何工作的。这本书讨论了不同的超参数调优技术,从基础到高级方法。

这是一个关于超参数优化的分步指南,从什么是超参数以及它们如何影响机器学习模型的不同方面开始。然后介绍一些基本的超参数优化算法。此外,作者利用分布式优化方法解决了时间和内存约束的问题。接下来您将讨论超参数搜索的贝叶斯优化,它从以前的历史中吸取了教训。

这本书讨论了不同的框架,如Hyperopt和Optuna,它实现了基于顺序模型的全局优化(SMBO)算法。在这些讨论中,您将关注不同的方面,比如搜索空间的创建和这些库的分布式优化。

机器学习中的超参数优化有助于理解这些算法是如何工作的,以及如何在现实数据科学问题中使用它们。最后一章总结了超参数优化在自动机器学习中的作用,并以一个创建自己的自动脚本的教程结束。

超参数优化是一项冗长乏味的任务,所以请坐下来,让这些算法来完成您的工作。你将学到什么

  • 了解超参数中的更改如何影响模型的性能。
  • 对数据科学问题应用不同的超参数调优算法
  • 使用贝叶斯优化方法来创建高效的机器学习和深度学习模型
  • 使用计算机集群分发超参数优化
  • 利用超参数优化方法实现机器自动学习

这本书是给谁的

  • 从事机器学习的专业人员和学生。

在构建机器学习模型时选择正确的超参数是数据科学从业者面临的最大问题之一。这本书是超参数优化(HPO)的指南。它从超参数的最基本定义开始,并带您使用高级HPO技术构建您自己的AutoML脚本。这本书是打算为学生和数据科学专业人员。这本书由五章组成。

  • 第1章帮助您理解超参数是如何影响模型构建的整个过程的。它告诉我们HPO的重要性。
  • 第2章介绍了基本且易于实现的HPO方法。
  • 第3章介绍了解决时间和内存限制的各种技术。
  • 第4章和第5章讨论了贝叶斯优化、相关库和AutoML。

这本书的目的是让读者以一种直观和实用的方式来理解HPO的概念,每个部分都提供了代码实现。我希望你能喜欢。

成为VIP会员查看完整内容
1
101

第14届推荐系统顶级会议ACM RecSys在9月22日到26日在线举行。来自意大利Polytechnic University of Turin做了关于对抗推荐系统的教程《Adversarial Learning for Recommendation: Applications for Security and Generative Tasks – Concept to Code》,186页ppt,干货内容,值得关注。

https://recsys.acm.org/recsys20/tutorials/#content-tab-1-3-tab

对抗式机器学习(AML)是从识别计算机视觉任务中的漏洞(如图像分类)开始,研究现代机器学习(ML)推荐系统中的安全问题的研究领域。

在本教程中,我们将全面概述AML技术在双重分类中的应用:(i)用于攻击/防御目的的AML,以及(ii)用于构建基于GAN的推荐模型的AML。此外,我们将把RS中的AML表示与两个实际操作会话(分别针对前面的分类)集成在一起,以显示AML应用程序的有效性,并在许多推荐任务中推进新的想法和进展。

本教程分为四个部分。首先,我们总结了目前最先进的推荐模型,包括深度学习模型,并定义了AML的基本原理。在此基础上,我们提出了针对RSs的攻击/防御策略的对抗性推荐框架和基于GAN实践环节。最后,我们总结了这两种应用的开放挑战和可能的未来工作。

成为VIP会员查看完整内容
0
39

百度研究院大数据实验室窦德景博士等人给了关于自动深度学习的教程包括AutoDL的理论、算法、平台和应用,共132PPT,涵盖神经架构搜索、迁移学习和元学习,以及深度学习模型压缩。该教程将包括对最先进的算法和系统的全面调研。是了解工业界学术界的最好自动深度资料。 ![](https://cdn.zhuanzhi.ai/vfiles/d2ff3868a41c909690189e278604eedd

概览

机器学习、数据挖掘和数据分析技术在众多领域的广泛使用为自动构建模型、共享和重用模型、算法和代码提供了机会,以帮助提高解决方案的速度和减少工作的重复。尽管这适用于广泛的机器学习任务,但由于许多原因,自动化模型构建对深度学习特别重要。这样的例子包括:

  • 深度学习模型有很多超参数需要调整,
  • 深度学习模型需要很长时间的训练
  • 目前广泛使用的深度学习架构屈指可数。

在本教程中,我们关注最新的主题,如神经架构搜索、迁移学习和元学习,以及深度学习模型压缩。该教程将包括对最先进的算法和系统的全面调研,对报告者的研究经验的详细描述,以及由百度AutoDL团队构建的平台的现场演示。

本教程不需要任何先决条件。假设有监督学习和深度学习的一般知识就行。

目录

我们计划涵盖自动深度学习模型构建、迁移和压缩相关的广泛主题。具体的教程大纲是:

(1) 神经结构搜索

  • 基于深度强化学习的NAS
  • 可微分架构搜索
  • 随机搜索和进化搜索

(2) 深度学习模型迁移和元学习

  • 微调
  • 基于正则化的迁移学习
  • 知识蒸馏

(3) 深度学习模型压缩

  • 修剪,半精度,低秩分解
  • 参数共享
  • 知识蒸馏
  • 基于nas的模型压缩

(4) AutoML平台

  • 谷歌云自动机器学习
  • 微软Azure ML
  • Amarzon SageMaker

(5) 百度EasyDL和Jarvis的现场演示(支持百度AutoDL)

讲者介绍

Dejing Dou博士是俄勒冈大学计算机和信息科学系的教授,领导着高级集成与挖掘(AIM)实验室。他也是美国国家科学基金会IUCRC大学习中心(CBL)的主任。1996年获清华大学学士学位,2004年获耶鲁大学博士学位。

研究领域包括人工智能、数据挖掘、数据集成、信息提取和健康信息学。Dr. Dejing Dou发表研究论文100余篇,其中部分论文发表在AAAI、IJCAI、KDD、ICDM、ACL、EMNLP、CIKM、ISWC、JIIS、JoDS等知名会议和期刊上。他的DEXA'15论文获得了最佳论文奖。他的KDD'07论文被提名为最佳研究论文奖。他是《数据语义期刊》、《智能信息系统期刊》和PLOS ONE的编委会成员。他曾担任各种国际会议的项目委员会成员,并担任其中四次会议的项目联合主席。窦博士已经从国家科学基金会和国家卫生研究院获得了超过500万美元的PI研究资助。

其他讲者包括:Dr. Jun Huan,Dr. Siyu Huang,Dr. Di Hu,Mr. Xingjian Li,Dr. Haoyi Xiong,Dr. Boyang Li

合并下载:链接: https://pan.baidu.com/s/1qvSPv1f7wrHYLlvgC6NaMw 提取码: m871

成为VIP会员查看完整内容
0
62
小贴士
相关论文
Yu Hao,Yi Fang
0+阅读 · 2021年10月8日
An Event Data Extraction Approach from SAP ERP for Process Mining
Alessandro Berti,Gyunam Park,Majid Rafiei,Wil van der Aalst
0+阅读 · 2021年10月7日
Hailin Wang,Ke Qin,Rufai Yusuf Zakari,Guisong Liu,Guoming Lu
12+阅读 · 2021年1月6日
Privacy-Preserving News Recommendation Model Learning
Tao Qi,Fangzhao Wu,Chuhan Wu,Yongfeng Huang,Xing Xie
4+阅读 · 2020年10月8日
Generating Fact Checking Explanations
Pepa Atanasova,Jakob Grue Simonsen,Christina Lioma,Isabelle Augenstein
8+阅读 · 2020年4月13日
Ke Sun,Bin Xiao,Dong Liu,Jingdong Wang
5+阅读 · 2019年2月25日
Othman Sbai,Mohamed Elhoseiny,Antoine Bordes,Yann LeCun,Camille Couprie
3+阅读 · 2018年4月3日
Keze Wang,Xiaopeng Yan,Dongyu Zhang,Lei Zhang,Liang Lin
6+阅读 · 2018年3月27日
Rohit Girdhar,Georgia Gkioxari,Lorenzo Torresani,Manohar Paluri,Du Tran
7+阅读 · 2017年12月26日
Xin Luna Dong,Evgeniy Gabrilovich,Geremy Heitz,Wilko Horn,Kevin Murphy,Shaohua Sun,Wei Zhang
4+阅读 · 2015年3月1日
Top