【KDD2022教程】在线聚类:算法、评估、指标、应用和基准，附75页ppt

在线聚类算法在数据科学中发挥着至关重要的作用，尤其是在时间、内存使用和复杂性方面的优势，同时与传统聚类方法相比保持了较高的性能。本教程服务于，首先，作为在线机器学习的调查，特别是数据流聚类方法。在本教程中，最先进的算法和相关的核心研究线程将通过识别不同的类别基于距离，密度网格和隐藏的统计模型。聚类有效性指标作为聚类过程中的一个重要组成部分，通常被忽略或被分类指标所取代，导致对最终结果的误解，也将被深入研究。

然后，本文将介绍River，一个由Creme和scikit-multiflow合并而成的go-to Python库。它也是第一个包含在线集群模块的开源项目，该模块可以促进可重复性，并允许直接进一步改进。在此基础上，我们提出了基于现实问题和数据集的聚类配置、应用程序和基准设置的方法。

https://hoanganhngo610.github.io/river-clustering.kdd.2022/

教程的大纲，如下:

数据流(在线)机器学习导论(约45分钟) 什么是在线机器学习，我们为什么需要在线机器学习? 与批量/传统机器学习相比，在线机器学习的差异、优点和缺点。 River简介，一个由Creme和scikit-multiflow合并而成的用于机器学习的实用Python库。 River在分类、概念漂移、估计值实现等方面的实际应用，以及使用全视图显示实时结果。

在线聚类算法和评估指标。

综述了现有聚类算法、一般概念及其发展。聚类和分类评价指标的主要差异，可能导致对最终结果的错误解释。在线聚类算法和评估指标在实际问题中的实际应用。

用例和基准测试。

在线与传统/批处理聚类算法的比较。进行基准测试的动机、设置和系统要求。关于使用River包以及相关的git库和终端进行基准测试的教程。

成为VIP会员查看完整内容

相关内容

KDD 2022

关注 0

国际知识发现与数据挖掘大会 (ACM SIGKDD Conference on Knowledge Discovery and Data Mining，简称KDD) 是数据挖掘领域的顶级会议。第28届SIGKDD会议将于8月14日至18日在华盛顿举行。据统计，今年共有1695篇有效投稿，其中254篇论文被接收，接收率为14.98%，Applied Data Science Track录用率为25.90%。

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

专知会员服务

23+阅读 · 2022年9月4日

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

87+阅读 · 2022年8月18日

1407页ppt！图宾根大学最新《统计机器学习》教程

专知会员服务

98+阅读 · 2022年5月8日