在社交网络图中,我们如何预测用户之间的连接,并判断这些连接是基于共同爱好还是共同好友?在包含分子图的数据库中,我们又如何根据它们常见的子结构来判断这些图是否能够抑制 HIV 复制?类似地,在来自脑电图(EEG)记录的时间序列数据中,我们如何识别癫痫发作,并解释为何这些事件被视为异常?尽管近年来的机器学习方法在性能上取得了显著提升,但许多方法仍然是黑盒模型,难以解释其决策依据。这引出了“可解释人工智能”(XAI)的研究,它通过生成解释提供有价值的洞察,并在实际应用中更加实用。 本论文致力于开发适用于图数据和时间序列的可解释机器学习方法。我们提出的每种方法都具有内在的可解释性,或被设计为能自动提供数据分析和决策依据。在每一部分中,我们都提出了高效而通用的算法,并探索了广泛的应用场景。
第一部分聚焦于节点级图挖掘。我们提出了多种算法用于分析图中的不同信息类型,例如图结构所体现的网络效应,以及节点特征中所包含的可用信息。我们提出的线性方法不仅本身具有可解释性和高效率,而且在节点分类与链接预测任务中优于现有基线。在节点分类任务中,我们的方法相较第二优方法提升了 10.3% 的准确率,同时速度快了 2.5 倍。在链接预测任务中,我们的方法平均排序为 1.1,在 12 个真实世界数据集中的 11 个上表现优于基线。在图检索增强生成(graph retrieval-augmented generation)的应用中,我们的智能体方法取得了 51% 的平均相对性能提升。
第二部分聚焦于图级图挖掘。我们基于最小描述长度(MDL)原理和可学习图核方法,发现频繁子结构。在图异常检测任务中,我们基于 MDL 的方法比第二优基线快了 58 倍,同时平均精度提升了 1.3 倍。在图回归任务中,我们结合可学习图核的方法将平均绝对误差降低了 14.3%。在人口贩运检测的应用中,我们的方法以 84% 的精度检测出人口贩运广告,并在 8 小时内处理了 400 万份文档。
第三部分聚焦于时间序列挖掘,特别是时间序列的异常检测。我们提出的自监督方法能够有效识别时间序列数据中异常的真实超参数,在与基线方法的对比中获得了平均排序 2.2 的结果。在医疗 EEG 信号的应用中,与传统的点异常检测方法不同,我们关注的是在短时间内出现并呈现相似异常模式的群体异常。我们的方法具备高效性与可扩展性,能够在普通设备上用 2 分钟完成对 100 万个数据点的点异常和群体异常的发现与排序。