论文题目: Meta-Learning to Cluster
摘要: 聚类是探索性数据分析中最基本、最广泛应用的技术之一。然而,聚类的基本方法并没有真正改变:专业人员手工挑选特定于任务的聚类损失,以优化并适合给定的数据,以揭示底层聚类结构。某些类型的损失——例如k-means或其非线性版本:kernelized k-means(基于质心的)和DBSCAN(基于密度的)——由于它们在一系列应用中具有良好的经验性能,因此很受欢迎。尽管使用这些标准损失的聚类输出常常不能揭示底层结构,而且执行者必须自定义设计它们自己的变体。在这项工作中,我们采用了一种本质上不同的聚类方法:我们不是根据特定的聚类损失来拟合数据集,而是训练一个学习如何聚类的递归模型。该模型使用数据集的示例(作为输入)和相应的聚类标识(作为输出)作为训练对。通过提供多种类型的训练数据集作为输入,我们的模型能够很好地泛化不可见的数据集(新的集群任务)。实验表明,与标准的基准聚类技术相比,在简单的综合生成数据集或现有的真实数据集上进行训练,可以获得更好的聚类性能。我们的元聚类模型即使对于通常的深度学习模型表现较差的小数据集也能很好地工作。
作者: Yibo Jiang, Nakul Verma