摘要—近年来,聚类算法的研究主要集中在提高其准确性和效率,往往以牺牲可解释性为代价。然而,随着这些方法越来越多地应用于高风险领域,如医疗保健、金融和自动化系统,透明且可解释的聚类结果的需求已成为关键问题。这不仅是为了赢得用户的信任,还为了满足这些领域日益增长的伦理和监管要求。确保从聚类算法中得出的决策能够被清楚理解和合理化现已成为基本要求。为应对这一需求,本文对当前可解释聚类算法的现状进行了全面而系统的综述,并识别出区分不同方法的关键标准。这些见解能够有效地帮助研究人员在特定应用场景中做出关于最合适的可解释聚类方法的明智决策,同时也促进了既高效又透明的聚类算法的发展和采用。
关键词—可解释聚类、算法可解释性、可解释机器学习与数据挖掘、可解释人工智能(XAI) 导论
聚类分析 [1], [2] 是数据挖掘领域中的一项关键任务,旨在根据数据中的内在特征和模式将数据划分为不同的组。这个过程有助于揭示数据点之间的有意义结构和关系,从而促进各种应用和进一步的分析。 几十年来,已经提出了许多算法来解决不同应用中的聚类问题,并取得了很高的准确性。然而,在大多数情况下,聚类模型作为一个“黑箱”存在,导致了常见的问题,例如:聚类结果是如何形成的?人们能否理解聚类结果形成的逻辑?模型是否可信?模型解释这些问题的能力被暂时定义为模型的聚类可解释性或可解释性 [3]。鉴于数据挖掘和机器学习领域的多数研究者在使用可解释性和解释性时常常互换使用,本论文将全程使用“可解释性”一词。
至今,可解释性仍缺乏一个精确的或数学的定义。不同来源提供了略有不同的定义——例如,在文献 [4] 中定义为“向人类解释或以人类可理解的术语呈现的能力”,在文献 [5] 中定义为“人类能够理解决策原因的程度”,而在文献 [6] 中定义为“使机器学习系统的行为和预测对人类可理解”。这些定义从整体上都能捕捉到可解释性的本质。
然而,模型的可解释性可能因用户的实际需求而异,并且可以在不同维度上表现出来。在某些疾病研究中,医生通常更关心识别患者特征,这些特征表明患病的可能性较高,以及这些特征是否能有助于早期诊断。相比之下,数据科学家则关注设计可解释的模型,为患者提供有说服力的解释,并有效阐明每个患者被归类为特定疾病类型的原因,从而帮助理解各种特征对结果的影响。因此,尽管各种可解释方法可以在多个维度上提供不同程度的可解释性,但仍然有必要对这些方法进行系统的总结和区分。
据我们所知,已经有一些综述文章总结了与可解释性相关的方法。然而,这些综述要么没有专注于聚类领域 [7], [8], [9], [10], [11],要么因发表时间过早而未能包含最新的研究成果 [12]。为填补这一空白,我们全面收集了现有的可解释聚类方法,并提出了一套分类标准,以确保所有与可解释聚类相关的方法都能归入这些标准之一。此外,我们将聚类过程划分为三个阶段,并根据不同阶段的可解释性对所有可解释聚类方法进行分类,构建了本综述的总体框架:(1)特征选择阶段(聚类前),(2)模型构建阶段(聚类中),和(3)模型解释阶段(聚类后)。我们相信,本综述将为读者提供对可解释聚类的新理解,并为该领域未来的研究奠定基础。
本文的其余部分组织如下。第2节讨论了可解释聚类的需求。第3节提供了可解释聚类方法的分类法。第4至6节分别根据聚类过程中不同阶段的可解释性,回顾了可解释的聚类前、聚类中和聚类后方法。最后,第7节总结了本文,并讨论了未来的研究方向。
随着人工智能和机器学习算法的进步并在各种任务中表现出色,它们正被应用于多个领域。然而,它们在医疗、司法、制造、国防和金融等风险敏感领域的应用仍然有限。在这些领域应用AI系统及其背后的机器学习算法涉及三个关键的人类角色 [13]:开发者、相关领域的最终用户以及社会层面的监管者。对于这些角色中的任何一方来说,理解和信任算法如何得出结果至关重要。例如,开发者需要理解算法如何产生有意义的结果,并认识到其局限性,从而能够纠正错误或进行进一步评估。最终用户需要评估算法的结果是否包含领域特定的知识,并且是否有充分的依据。监管者需要考虑算法结果的影响,例如公平性、潜在的歧视,以及风险和责任所在。这要求整个算法过程具备透明性和可信度。
为应对这些挑战,可解释机器学习的研究已迅速发展 [6]。许多下游分析通常是在聚类级别上构建的,聚类方法旨在通过生成模式作为数据的初步理解。在这一阶段,聚类的可解释性以及算法机制的透明性需求变得愈发重要。
传统的聚类算法通常注重提供聚类结果,将准确性和效率作为首要任务,尤其是在复杂的高维数据中。它们所采用的模型大多是“黑箱”,尤其是当使用表示学习技术和深度学习的高级聚类方法时。这些方法会考虑数据的所有维度和特征值,并将它们积极地纳入聚类结果的生成中。然而,“为什么”以及“如何”产生这些结果的推理对于算法设计者来说仍不透明,使得最终用户更难理解。
相比之下,可解释的聚类方法明确旨在解释聚类结果,使人类能够理解为什么算法过程会产生有意义的聚类结果。任何能够增强聚类分析可解释性的技术或工具都可以归类为可解释聚类的范畴。此类方法的标志是在聚类过程的任何阶段引入可解释的模型 [14]。这些可解释元素伴随最终的聚类结果,使其对人类而言可理解、可信并可使用。这些元素可能包括但不限于使用特定特征值(如年龄、收入)来识别导致聚类结果的关键因素。最终用户可以依赖这些信息来理解聚类结果,并评估从中得出的结论是否可信。
好的可解释聚类方法应提供明确的证据,解释聚类结果是如何得出的,为最终用户提供理解算法行为及其背后逻辑的机会。然而,最终用户是否选择信任这些证据,可能取决于具体应用需求或专家知识。作为机器学习研究人员和数据科学家,我们主要从数据驱动的角度来评估什么构成好的可解释聚类方法。
首先,可解释证据的形式应尽可能简单。例如,用于生成某一聚类的特征值的数量应尽量减少,这可以大大降低最终用户理解结果的复杂性。其次,每个聚类应包含与其他聚类相比独特且可区分的信息。换句话说,理想情况下,同样的可解释证据应仅对应一个特定的聚类,而不会与其他聚类重叠。这种独特性增强了证据的可信度,确保最终用户相信它与特定的聚类紧密相关,从而减少了与其他不同功能的聚类混淆的可能性。
为了确定可解释聚类方法的好坏,甚至量化其效果,必须考虑所使用的具体可解释模型。例如,当使用决策树模型时,通过树的分裂,可以清晰地定义每个聚类的证据是高度独特的,从而满足了基本的独特性要求。此外,可以通过检查树的结构参数(如叶节点的数量,即聚类的数量,和树的平均深度)来衡量最终用户理解结果的难易程度。从根节点到叶节点的路径表示了从数据到聚类的过程,每个分支节点记录了导致聚类的决策(分裂特征值)。使用更少的特征值可以生成更简洁的可解释证据,使最终用户更容易理解和信任聚类结果。
在本节中,通过收集和总结现有的可解释聚类方法,我们建立了以下分类标准以系统地对它们进行分类: 首先,基于广泛认可的聚类过程,现有的可解释聚类方法可以分为三类:聚类前方法、聚类中方法和聚类后方法。具体来说,聚类前方法通常在聚类过程之前执行,通常与可解释特征的选择相关。聚类中方法则为样本构建可解释的聚类模型,能够在不需要额外操作的情况下生成准确的划分。而聚类后方法通常侧重于解释现有聚类模型的结果,试图通过可解释模型来解释黑箱模型生成的结果。
其次,大多数方法,尤其是聚类中和聚类后方法,可以根据它们使用的不同可解释模型来区分(如图1所示),这些模型包括以下几类:
第三,现有方法可以根据它们的可解释程度分为模型级别和特征级别的可解释性。虽然本文讨论的大多数方法都侧重于设计可解释模型以获得聚类结果或拟合第三方算法的结果,但也有一些方法强调从复杂数据中提取可解释特征,或研究特定聚类及其相关特征之间的关系,从而增强可解释性。
最后,方法还可以根据它们所处理的数据性质进行分类。这些数据类型包括表格数据(数值型、类别型或两者的组合)、序列数据(如离散序列和时间序列)、图像、文本以及图数据。
图2所示的分类框架为根据四个不同标准对聚类方法进行分类提供了框架。这些标准是描述现有可解释聚类方法的维度。同时,它们也可以用于识别符合特定可解释性和性能要求的方法。
在研究可解释的聚类模型时,虽然我们的目标是实现更透明的模型,但同样重要的是仔细考虑用于生成可解释结果的模型输入特征。具体来说,现有的可解释聚类前方法,重点研究在聚类之前进行的工作,可以从两个角度来探讨:(1) 特征提取 和 (2) 特征选择。尽管这两个问题在机器学习领域得到了广泛研究,但它们很少与可解释性联系起来,尤其是在如何挖掘更容易被人类理解的特征以用于后续聚类任务方面。因此,我们汇编了一份通过详尽搜索识别的与聚类前可解释特征提取或选择相关的论文列表,并在以下两个小节中详细说明。
从特征提取角度来看,可解释的聚类前方法通常集中在复杂数据类型上,例如多变量时间序列(MTS)。提取有意义和信息丰富的特征可以帮助开发出更简单的模型,这些模型能够更好地捕捉复杂数据中的显著特征,从而增强可解释性并促进更好的理解。 在多变量时间序列领域,文献 [16] 提出的系统自动从信号中提取特征,涵盖了描述每个信号的信号内特征和通过可解释度量评估信号之间关系的信号间特征。为了选择最重要的特征,作者提出了两种方法:一种是采用主特征分析(PFA)的无监督模式,另一种是结合用户在小样本数据集上的注释的半监督模式,显著减少了特征数量而不影响准确性。Salles等人 [17] 利用神经网络中的自适应门控动态选择每个实例的最相关特征。使用Gumbel-SoftMax技术处理离散选择,并使用退火均方误差正则化鼓励稀疏性,模型识别出对预测性能贡献最大的特征。这些选择的特征随后用于聚类,增强了聚类的相关性和可解释性。 基于格式塔理论,文献 [18] 提出了一种可解释的波段选择算法,其中高光谱图像被视为基于接近性和连续性原则连续变化的点。该模型使用相似性和不变性原则构建,从高光谱图像序列中提取三个波段形成伪彩色图像,增强了类别内部的一致性和类别之间的差异。RGB颜色被分为十种类型,通过欧几里得距离最小化三个通道与标准颜色之间的差异,实现不同波段的伪彩色映射,直观地显示特定光谱波段内的目标差异,符合视觉感知的原则。
另一类可解释的聚类前方法侧重于在聚类之前从一组冗余和复杂的特征中准确选择具有强辨别能力的特征,以适应不同的数据结构。这些方法能够显著提高聚类模型的可解释性,同时保持其准确性。 Svirsky等人 [19] 提出训练自监督的局部门控,以学习每个输入样本特定的稀疏门控向量。然后,使用学习到的向量通过自动编码器进行重构。这种方法通过选定的特征集为每个样本提供实例级别的解释,使得模型在保持可解释性的同时为每个实例使用更少的特征。
为了应对患者临床事件日志聚类中的可解释性不足问题,Balabaeva等人 [20] 提出了扩展二元特征集的方法。通过贝叶斯推理,他们识别出与聚类结构相关的特定特征,并将这些特征与专家描述聚类时使用的特征进行比较。该方法显著增强了临床路径聚类的解释性。
Effenberger等人 [21] 使用贪心算法选择了一组有用的特征。该方法每次考虑一个特征,从权重最高的特征开始,选择它,除非它非常稀有、几乎用于所有解决方案或与已选特征过于相似。Jaccard系数用于衡量两个特征之间的相似性,计算特征集合的交集与并集的比率。
可解释的聚类中方法作为可解释聚类方法中的直接来源,将可解释性嵌入到聚类算法过程中。这种可解释性通常被视为一种可优化的目标,与传统的聚类标准(如k-means中的SSE)结合在一起。一些方法将可解释性与传统聚类标准结合起来,作为一个多目标优化问题 [22],而大多数方法则将其视为与某些结构参数相关的附加项 [23]。 有两个典型的场景(S1和S2)可能使可解释的聚类中方法与相应的聚类前或聚类后方法混淆,具体取决于可解释性是在何阶段被考虑的: S1: 是否需要第三方算法的输入? 在这些聚类中方法中使用的可解释模型可以直接产生聚类结果(如使用通过树生长派生聚类的决策树模型),也可以通过联合优化目标函数与各种算法的成本合作。这些方法不依赖或附属于第三方算法的参考聚类结果。即使某些方法使用初始聚类结果作为输入,它们对聚类成本的定义仍然不明确 [24]。这些方法与聚类后方法之间的界限有时会模糊。若聚类是由可解释性驱动的,而不是通过拟合第三方算法的结果来保证近似性,则该方法更倾向于可解释的聚类中方法。
为了更清晰地说明聚类中方法与聚类后方法之间的区别,我们可以考虑以下示例: S1 示例参考:尽管[25]和[23]都优化了其算法中决策树结构的特定可解释性度量,前者代表了一种聚类后方法,而后者则是一种聚类中方法。文献[25]假设一个固定的参考聚类,并根据该聚类拟合决策树,而文献[23]允许参考聚类的变化,以发现更具可解释性的聚类。因此,它们在过程中何时考虑可解释性方面有所不同,决策树模型在聚类的不同阶段被使用。可解释的聚类中方法的关键强调其在聚类阶段的探索性特征,使得聚类结果在整个算法过程中可以根据需要进行修改。当聚类是由黑箱算法生成的,任何后续解释都可能被视为事后合理化,这可能使其不太可靠。理想情况下,可信的聚类结果应由可解释模型直接产生 [14],减少对第三方聚类算法的依赖,并增强过程中的透明性和可控性。
S2: 数据集中的特征是否固有可解释? 可解释的聚类中方法处理各种形式的数据,并根据数据集特征的特性进行调整。对于典型的向量数据,特征通常是可解释的 [26]:(1)对于数值特征,可以通过确定特征值是否大于或小于阈值来切分特征向量,这是决策树聚类中常用的方法;(2)对于类别特征,值也可以基于是否包含或排除特定类别进行解释。然而,对于缺乏显式特征的社会和生物网络数据 [27],可解释的社区检测方法旨在为节点寻找简洁的描述性特征 [28]。对于图像,其特征可能缺乏固有的可解释性(例如,没有清晰结构意义的像素矩阵),发现结构化或可解释的特征变得更加具有挑战性。在涉及语义内容的图像任务中,如描述性聚类领域 [29],重点转向识别可解释的标签。总而言之,处理这些具有不可解释特征的复杂数据时,通常需要结合深度学习技术 [30],[31]。对于类别顺序数据集,每个样本是一个长度可变的离散序列,一些常规的序列聚类方法需要将序列转换为特征向量。然而,这种转换通常会导致从原始序列空间中丧失可解释性。文献[32]提出,在构建可解释的聚类方法之前,需要进行区分性序列模式挖掘。 某些方法将解释性特征的搜索与聚类过程本身紧密结合,这会模糊聚类中方法与聚类前方法的界限。这些方法通常强调聚类级别的可解释性,而不是对象/实例级别的可解释性。以下是一些示例,这些方法清楚地说明了解释性特征提取过程如何与聚类中阶段集成在一起:
S2 示例参考:Kim等人 [33] 提出了一种生成方法,用于识别高维二元数据聚类中区分维度,促进数据探索和假设生成。他们的系统将可解释性标准嵌入到模型中,使用基于逻辑的特征提取将维度分组为可解释的集合,从而区分聚类。Huang等人 [34] 开发了一种用于聚类中特征选择的深度聚类算法。该模型基于图拉普拉斯理论的K-并行自重构学习,通过探索未知特征关联并执行自动特征加权来最小化聚类特定的损失,增强了聚类性能和可解释性。
在澄清了这两种场景下聚类中方法在某些情况下可能与聚类前或聚类后方法混淆之后,以下小节将进一步回顾和识别定义可解释聚类中研究领域的关键方面。讨论将重点放在可解释性目标如何与聚类算法过程集成,特别关注典型的可解释模型类型。
决策树模型在机器学习中广泛被认为是一种可解释模型,常用于分类和回归任务。其可解释性来源于基于特征值对数据进行递归、分层的划分以生成中间结果,最终输出可以通过用于分裂的特征值进行追踪。实例根据特定的分裂点分配到不同的叶节点(聚类),遵循从根节点(代表整个数据集)向下经过分支节点的清晰透明路径,最终用户易于理解。 早期将决策树应用于聚类的尝试可以在文献 [41] 中找到,使用均匀分布的合成数据作为辅助数据来构建标准(监督)决策树。这种方法旨在通过修改标准的分裂标准(如信息增益)最大化原始数据与合成数据之间的分离度。尽管该方法使用了二元分裂,易于理解,但依赖于数据生成引入了额外的假设,使得难以声称分裂是真正可解释的。相比之下,文献 [42] 直接基于原始特征开发了无监督的决策树。作者提出了四种不同的选择最合适特征的度量标准,并为每个分支节点分裂数据提出了两种算法。然而,要选择用于计算这些度量的候选分裂点,需要先将数值特征域划分为区间。文献[35]引入了CUBT,提出了一种更简单的分裂标准和更直观的算法框架,并进一步扩展到分类数据 [43]。CUBT采用了类似于CART的通用方法,包括三个步骤:最大树结构构建,随后修剪和合并以简化树结构。该无监督的决策树聚类模型也被扩展到可解释模糊聚类领域 [44],其中在分支节点使用模糊分裂来增长初始树,随后合并相似的聚类以创建更紧凑的树结构。 上述无监督决策树模型采用自顶向下的方法,在当前分支节点级别考虑所有可能的候选分裂点,并计算异质性等标准,以便树根据从父节点传递下来的最佳分裂贪婪地(贪婪搜索)增长。然而,这种类型的算法缺乏全局指导,意味着每次分裂都是局部优化,而不是在整个数据集上实现全局优化。 一些使用决策树的高级可解释聚类中方法利用了现代优化技术。这些现代优化技术包括,但不限于,文献[36]中使用的混合整数线性优化(MIO)技术 [45],文献[24]中使用的树交替优化(TAO)技术 [46],以及文献[23]中使用的单调优化技术(如分支减少和界限(BRB)算法)[47]。这些方法旨在通过明确优化应用于整个数据集的目标函数来构建全局最优的聚类树。与传统的自顶向下方法不同,这些方法直接建立了分配到不同叶节点(聚类)的实例与可解释性目标之间的关系,并在目标函数中明确编码了可解释性。这些方法以更定量和形式化的方式表达可解释性,通常通过指定树的结构度量 [15](例如叶节点的数量),文献[23],[24]中使用的叶节点数量(nLeaf)较少,通常表示较低的树复杂性和相应的更好可解释性。在这一全局优化框架的基础上,还提出了一些可解释的模糊聚类算法。例如,文献[48]采用核密度决策树(KDDTs)通过交替优化策略构建模糊决策树,而文献[49]则在目标函数中引入了分裂的软(概率)版本,并通过受约束的连续优化模型获得最优分裂。
挖掘用于派生特定聚类的最佳规则集的过程通常受到模式挖掘领域的启发 [50]。为了确保不同的规则集能够有效地对应其各自的聚类,规则集通常具有两个关键特征 [51]:(1)频率(有意义),表示规则集应尽可能覆盖其对应聚类中的样本(真阳性);(2)区分能力(独特),表示规则集应尽量减少覆盖其他聚类样本的数量(假阳性)。
为了获得用于可解释聚类的规则集,一种常见方法是根据规则覆盖特定聚类的效果来量化可解释性。例如,如文献[37]所示,可解释性评分用于评估某个特征值与聚类的相关性,通过考虑共享该特征值的聚类样本的比例来实现。在生成的所有候选规则或规则集(如使用频繁模式挖掘生成)中,这些方法旨在派生最大化可解释性评分的聚类,同时优化聚类质量。由于可解释性目标通常与聚类质量冲突,现有方法通常将可解释性评分作为用户指定的边界,以平衡可解释性和聚类质量,并与标准聚类目标结合。文献[22]的方法为与聚类相关的每个规则集引入了两个可解释性标准:一个类似于文献[37],另一个则考虑规则集的独特性,即它覆盖的与相关聚类无关的样本数量最少。优化这两个可解释性目标与聚类质量度量相结合,形成了多目标混合整数线性优化问题(multi-MIO)。此外,文献[22]考虑了规则集长度(lenRule)的最大值,即组合中的特征值数量作为约束,确保通过简洁的规则表示的聚类更加可解释。
其他基于规则的可解释方法可能是定制化的,其中规则的含义不仅仅基于特征值。例如,在文档数据集[52]中,规则可能采用不同的形式。模糊规则聚类领域的相关方法已被文献 [12]综述[53]。
除了上述两种广泛使用的可解释模型外,其他可解释的聚类中方法基于代表性元素创建聚类或确定聚类成员资格,这些方法通常可以归类为基于边界或类质心的方法。然而,为了使这些代表性元素具有可解释性,某些属性需要保持。以下是这些方法的简要概述。
凸多面体:这些方法将聚类边界限制为在特征空间中轴平行(矩形),如文献[38]中提出的方法,该方法设计了一个概率判别模型(PDM)来定义此类聚类。更普遍地,它们可能使用允许对角边界的超平面 [39] 来更准确地表示聚类。
无论是哪种情况,目标都是创建具有更少特征值的聚类,并将这些作为可解释性约束纳入标准聚类目标函数中。例如,文献[39]使用混合整数非线性优化(nonlinear-MIO)编程公式来同时识别聚类并定义多面体。对于轴平行边界,每个维度使用一个特征值,而对角边界依赖于特征值的线性组合。虽然对角边界在区分不同聚类方面具有更大的能力,但由于其复杂性增加,相较于简单的轴平行边界,其可解释性较低。
原型(示例):在原始特征不可解释且难以理解的数据集中,如图像和文本,尤其是在使用深度嵌入时,最近关于通过示例进行可解释聚类的工作发现,寻求高层次的类质心可以用于表征聚类并促进可视化。例如,文献[40]解决了在没有事先指定的情况下找到最少示例数量(nExemplar)的挑战。此外,文献[31]提出了一个新的端到端框架,旨在提高大型数据集的可扩展性,使基于示例的聚类更具现实应用的可行性。
各种可解释模型已经为聚类中方法开发出来,还有其他潜在模型需要进一步研究(如表1所示)。这些模型始终将可解释性视为与聚类质量同等重要的目标,并将其直接或间接地作为优化目标,具体取决于模型类型。例如,基于树的模型通常优先减少分支或叶节点的数量,基于规则的模型则侧重于简短的规则,几何表示模型,如基于原型的模型,旨在最小化示例的数量。需要进一步研究的优化目标包括更精细的结构参数。例如,文献[25]中考虑了树的深度作为优化目标;然而,这种旨在解释给定参考聚类结果的方法属于聚类后方法。
可解释性与聚类质量之间往往存在权衡,增强其中一个可能会削弱另一个。在聚类后方法中,这一经常讨论的挑战可能不那么严峻,因为这些方法只需要专注于一个方向,即拟合给定的聚类结果。相比之下,聚类中方法必须同时追求这两个目标。聚类中方法的一个关键研究方向是如何在确保真实数据可扩展性的同时平衡这些目标。如图1所示,几个可解释模型无法完全预测所有样本相对于其聚类的位置。虽然标准的决策树模型生成的划分与坐标轴对齐,但更灵活的斜决策树 [24]可以提高聚类性能。同样,凸多面体方法可以通过允许对角边界受益 [39],而不仅限于轴平行的矩形,前提是它们保持凸性。需要进一步研究设计能够有效处理复杂数据的新型可解释模型。
模型后的可解释性是可解释学习中的一个关键方面,侧重于解释黑箱模型所做决定的推理过程。在聚类的背景下,可解释的聚类后方法指的是使用可解释模型(如决策树)来尽可能接近地逼近现有的聚类结果(也称为参考聚类结果)。这意味着可解释模型分配给样本的标签应尽可能与原始结果对齐。这种方法有助于理解为什么某些样本被分配到特定的聚类中,从而促进对黑箱模型的信任。以下小节将根据不同的可解释模型对现有的可解释聚类后方法进行分类。
决策树是聚类后分析中最广泛使用的可解释模型。在决策树中,每个内部节点根据预定义的标准将其包含的样本分成不同的组。k个叶节点(不一定是实际的聚类数量)对应于参考聚类结果中的k个聚类。每个聚类的分配可以通过其对应叶节点的路径进行解释。
在基于决策树的聚类后方法中,构建的决策树所获得的聚类结果与参考聚类结果越接近,其可解释性表现就越好。现有研究通常将这一指标定义为“可解释性的代价” [54],即可解释聚类的成本与最优聚类(例如k-means/medians)的成本的比率。因此,目标通常是构建一个决策树T,使得cost(T)与最优k-means/medians的成本相比不太大。具体来说,当一个算法返回一个阈值树T时,它具有x-近似保证,即cost(T) < x · cost(opt)。
关于由可解释聚类后方法构建的决策树质量的研究始于Moshkovitz等人的工作 [54]。他们使用贪婪方法开发了决策树,旨在最小化每个分裂的错误数(即从对应参考聚类中心分离的点数),当树达到k个叶节点时停止。该方法在最优k-medians上实现了O(k)的近似,在最优k-means上实现了O(k^2)的近似。Laber等人 [58] 提高了近似性,在最优k-medians上实现了O(d log k)的近似,在最优k-means上实现了O(kd log k)的近似。他们通过首先构建d棵决策树(其中d是数据的维数),然后利用这些树来构建最终的决策树来实现这一目标。最终决策树中用于分裂节点的特征基于当前节点中包含的中心的最大范围的维度选择。对应维度的决策树中与该节点相关的特征值与参考中心集中到达当前节点的最近公共祖先(LCA)相关。Makarychev等人 [59] 采用了不同的方法,在相对随机的情况下选择分裂特征和值,以区分每个节点中距离较大的中心。这使得最优k-medians的近似为O(log k log log k),最优k-means的近似为O(k log k log log k)。文献[60]构建的决策树中,每个分裂节点的分割选择完全是随机的,只要它可以将不同的参考中心分离到不同的子节点中。已证明该方法可以实现最优k-medians的O(log^2 k)近似和最优k-means的O(k log^2 k)近似。最近,Esfandiari等人 [61] 集中于确定每个维度上参考中心的最大值和最小值,排序这些值,然后采样一个分裂点来有效地分离参考中心。他们的方法实现了最优k-medians的O(log k log log k)近似和k-means的O(k log k)近似。已经提出了几种方法来独立地为k-means或k-medians提供近最优算法 [62], [63], [64],在此不作详细阐述。
不同于专注于提高决策树模型提供最优聚类结果近似保证的能力,Frost等人 [65] 采用了[25]的方法,构建了一棵具有k个叶节点的树,然后使用一种新的代理成本贪婪地扩展树到k′ > k个叶节点,并证明随着k′增加,代理成本是不增加的。这种方法降低了聚类成本,同时提供了在可解释性和准确性之间灵活的权衡。Laber等人 [25] 专注于构建能为划分聚类提供简短解释(即树的深度较小)的决策树,同时在k-means成本函数方面仍能诱导出良好的划分。此外,他们提出了两个用于衡量可解释性的结构度量:加权平均深度(WAD),该度量根据其相关聚类中的样本数量对每个叶节点的深度进行加权;加权平均解释大小(WAES),是WAD的一个变体。受稳健性研究的启发,Bandyapadhyay等人 [66] 研究了通过删除最少的点来构建决策树,以精确匹配参考聚类结果,其中可解释性通过删除的点数来衡量。
与决策树不同,基于if-then规则构建的可解释聚类后模型不涉及层次关系。它们对聚类的解释相对简洁和直观,通过一组规则来描述聚类中的样本。据我们所知,尽管if-then规则作为可解释模型已经广泛被接受,并得到了广泛研究,但大多数基于规则的可解释聚类方法集中于从数据中提取规则以形成聚类。因此,针对已形成聚类生成规则并提供解释的聚类后方法的研究相对有限。 Carrizosa等人 [22] 解释聚类的目标是最大化真实阳性案例(即满足解释的聚类内样本)的总数,同时最小化假阳性案例(即聚类外满足解释的个体)的总数。此外,规则的长度受到限制,以确保较强的可解释性。 De Weerdt等人 [67] 通过首先从数据中生成特征集,然后应用一种带有剪枝的最佳优先搜索过程来构建解释集,研究了事件日志的解释搜索。通过迭代过程,他们不断提高实例解释的准确性和简洁性。在此基础上,Koninck等人 [68] 从黑箱支持向量机(SVM)模型中为每个个体实例挖掘简洁规则,并讨论和评估可用于解释技术的不同替代特征集。
除了上述的决策树和if-then规则外,文献中还有其他一些可解释模型用于解释现有的聚类结果。鉴于这些模型数量有限,我们将不逐一回顾每个模型,而是在此提供总体总结。 原型:Carrizosa等人 [57] 提出了一种使用原型来解释每个聚类的方法。原型是代表其聚类的个体,其与聚类内其他个体的相似性最小。在他们的方法中,他们解决了一个双目标优化问题,以识别这些原型。该问题旨在最大化每个聚类中的真实阳性案例的数量,同时最小化其他聚类中的假阳性案例的数量。 凸多面体:在文献[55]中,围绕每个聚类构建一个多面体作为其解释。每个多面体通过有限数量的半空间的交集形成。作者将多面体描述问题表述为一个整数规划问题,其中变量对应于用于描述聚类的候选半空间。此外,他们提出了一种列生成方法来有效地搜索候选半空间。Chen等人 [56] 提出使用超立方体覆盖模型来解释聚类结果。该模型结合了两个目标函数:超立方体的数量和实例的紧凑性。采用启发式搜索方法(NSGA-II)来识别一组非支配解,定义理想点以确定最合适的解决方案,每个聚类由尽可能少的超立方体覆盖。 描述:Davidson等人 [69] 提出了聚类描述问题,其中每个数据点都与一组离散描述相关联。其目标是为每个聚类找到一组不重叠的描述,以覆盖聚类中的每个实例。该方法允许指定每个聚类的最大描述数量,以及任何两个描述可以共同覆盖的聚类的最大数量。
几种代表性的可解释聚类后方法总结在表2中。此外,还可以注意到以下几点:首先,大多数聚类后研究利用决策树作为可解释模型来解释聚类结果。然而,决策树生成的解释存在一些缺点,例如深层决策依赖于浅层决策。此外,可以考虑在选定的维度上使用超平面代替仅沿一个特征进行划分。此外,适合的数据类型可能影响选择哪种可解释模型;例如,描述可能更适合社区分析。因此,涉及其他可解释模型的聚类后方法需要进一步研究。
其次,现有方法主要集中在通过基于决策树的方法逼近参考聚类结果的最优聚类成本,或者旨在实现具有较高真实阳性率和较低假阳性率的可解释模型 [22], [57]。然而,只有少数方法强调解释的简洁性(除[22], [25]外),其中包括但不限于决策树的深度、叶节点的数量以及规则的长度和数量。因此,平衡可解释模型的准确性和简洁性,以及量化可解释性指标,仍然是一个需要进一步研究的领域。
本综述从全面且系统的角度对各种可解释聚类方法进行了探讨,重点介绍了该领域的基础研究和最新进展。这是首个涵盖聚类分析全生命周期的主题,包括聚类前、聚类中和聚类后阶段。在每个阶段,相关的可解释聚类方法文献都进行了回顾。主要目标是明确在聚类背景下可解释性的定义,以及它如何嵌入常用的可解释模型中,如决策树、规则、原型和凸多面体模型。这些模型创建了具有可解释性的聚类,使人类用户能够理解这些元素,并可能使这些聚类结果应用于高风险领域,从而满足透明性和可信度的基本要求。 为提供对该领域未来方向的有价值见解,我们根据不同方面对各种可解释聚类方法进行了分类,并进一步总结了关键技术标准供读者参考,例如:(1) 优化方法,说明来自不同领域的作者如何将可解释性挑战形式化,并使用哪些方法解决这些优化问题;(2) 与可解释性相关的结构度量,这些度量可能被用于评估新方法的可解释性质量,类似于使用准确性评估聚类质量。文献仍然缺乏对更多样化的结构度量的关注。我们相信,研究这些不同可解释聚类方法的研究人员可以互补和增强彼此的工作。此外,不同聚类阶段的方法可以结合使用,因为仅依赖单一阶段的可解释聚类方法可能不足以应对复杂且具有挑战性的应用场景。尤其是在明显的可解释特征不存在的情况下,构建可解释的聚类算法变得困难。此外,针对复杂数据(如离散序列 [32]、网络(图) [70] 以及多视角和多模态数据 [71])的可解释聚类方法的研究仍然有限。