斯坦福CS224W 图与机器学习5】Spectral Clustering - 专知

会员服务 ·

0

斯坦福CS224W 图与机器学习5】Spectral Clustering

2020 年 5 月 14 日 图与推荐

第五节主要介绍了谱聚类，也可用于上一节提到的社区划分，另外还扩展了基于motif的谱聚类，主要分成两个部分：

谱聚类算法
基于motif的谱聚类

谱聚类算法

Part1 问题定义

给定一个图，如下图所示，谱聚类就是一个bi-partition任务，希望把下图划分成两个群体A，B，让组内尽可能相似，组间差异尽可能大。

那么怎么定义一个“好”的划分？怎样快速找到这样的划分呢？

Part2 评价指标

上一节介绍的社区检测算法中，利用模块度作为评价指标来衡量社区划分的效果，而对于谱聚类，应该如何评价呢？

对于一个好的划分，一个很自然的想法，直觉上就是最大化组内连接数，最小化组间连接数

因此，利用“edge cut”来定义划分：，其中是边权重，上图中。但是如果我们想最小化cut有一个问题，如下图所示，当有一个节点度数为1时，切割这一条边可最小化cut，即cut=1，但是很显然这并不是最优化的划分结果，直觉上看，最优化的划分应该为蓝色线所示。

因此，考虑做归一化，评价指标为Conductance：

其中为在划分组A中所有节点的度数之和。由于分母中有最小的组节点度数和，上图中minimum cut由于分母为1，使conductance变大，显然不是最优划分，通过这样的归一化可以使两个组元素尽可能平均。

小结：可以利用Conductance作为谱聚类的评价指标

那么怎样快速找到划分呢？

Part3 谱图划分

先说结论，对于谱聚类，可以分为以下三步：

数据预处理：利用图的邻接矩阵A，度矩阵D，计算拉普拉斯矩阵
分解：计算拉普拉斯矩阵的特征值和特征向量，其中第二小特征值为，对应的特征向量为

3. 分组：对上述特征向量进行分组，比如说可以利用正负或者中位数进行划分，如下图所示，节点123特征向量为正，划分为一组，节点456特征向量为负，划分为一组。

通过上述三个步骤，即可实现谱聚类。关于细节实现以及原理，有这样几个问题：

Q1：拉普拉斯矩阵有怎样的性质？

Q2：为什么是第二小特征值对应的特征向量？（为什么不是最小的？）

Q3：为什么用特征向量聚类来实现划分？这样的划分为什么是合理的？

Part3.1 拉普拉斯矩阵

拉普拉斯矩阵：有这样几个性质：

所有特征值非负
，即是半正定的

证明：

所以拉普拉斯矩阵是半正定矩阵，上述三个性质均成立。另外一方面，由于，当时，，则为拉普拉斯矩阵的一个特征值，又由于拉普拉斯矩阵的特征值非负，所以0为最小的特征值，对应的特征向量为

Part3.2 第二小特征值意义

首先，给出一个结论：对于任意对称矩阵M，有，其中是矩阵M第二小特征值，为矩阵M第一小特征值对应的特征向量。

证明：不妨限制特征向量均为单位向量，记则W为正交矩阵，且有 ,另 ,则，即。则有：

由于当时，，则

Part3.3 特征值&谱聚类

上述两个部分有什么意义呢？由上述两个部分，我们得到了两个结论：

(把part3.2中M替换为拉普拉斯矩阵L）

为了满足上面两式，我们需要限制两个条件：

x是单位向量：
，由于在拉普拉斯矩阵中，最小特征值为0，对应的特征向量为，则有

现在回到谱聚类问题中，由于，则x必然有正有负，如下图所示，在坐标轴两侧有一些点，在谱聚类中，我们希望最大化组内连接数，最小化组间连接数，也就是说，希望有尽可能少的点跨越0点，从数学表达式来说，我们希望。联合上式，我们有。

为什么不是利用呢，因为恒为0，此时图一定是不连通的，最小化没有意义，所以要给一个限制条件后利用第二小的特征值。综上所述，就可以利用拉普拉斯矩阵第二小的特征值对应的特征向量来进行划分。

通过上述三个部分，就简单解释了谱图聚类三个步骤的意义~

再补充一些提到的其他问题：

可以证明，如果将图G划分为A和B两个部分，且那么对于评价指标conductance : ，有，即我们找到的这种划分标准是conductance的下界

证明：另（可以证明 )

假设 ,e=#edges from A to B，则：

上述方法中，是划分为两类，那么怎样划分为k类呢？

方法一：Recursive bi-partitioning 递归利用二分算法，将图划分为多类
方法二：聚类多个特征向量，选择k个特征向量，对这k个特征向量利用聚类方法（如k-means)将其聚为k类

基于motif的谱聚类

第三节中有介绍到motif，将图拆解为一个个子图来重新看待网络，motif给了网络一个新的定义方式，可以考虑从motif的角度（而不是上述边的角度）出发来进行谱图聚类，来捕捉图的角色信息。

Motif Conductance

类比edge cut和conductance，针对motif可以如下定义：

所以问题就变成了，给定motif M和图G，如何找到划分节点S，使motif conductance最小。（找到最小motif conductance为np问题，下面方法为近似算法）

Motif Spectral Clustering

类比上文谱图聚类，基于motif的聚类也分为三步：

数据预处理：出现在motif M的次数，如下图所示，基于motif对图边权重进行重新定义，每个边权重为出现过的motif次数。

2. 分解：类似于标准的谱图聚类方法，计算拉普拉斯矩阵和对应的特征值特征向量（不过是基于新的图

3. 分组：利用Sweep procedure方法，对第二小的特征值对应的特征向量x的元素从小到达排列得到 ,另集合，计算每一种划分下的motif conductance，选择使motif conductance最小的划分，如下图所示，当r=5时，motif conductance最小。

下图是食物链网络中基于右下角motif的谱图聚类结果。可以看出，基于motif的聚类在每一类结果中捕捉了特定的motif的结构，在每一类内部有较多的给定motif，而类与类之间这种motif较少。

系列文章：

登录查看更多

0

相关内容

拉普拉斯矩阵

拉普拉斯矩阵

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知会员服务

104+阅读 · 2020年6月11日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

171+阅读 · 2020年5月10日

斯坦福2020硬课《分布式算法与优化》

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

机器学习速查手册，135页pdf

机器学习速查手册，135页pdf

专知会员服务

345+阅读 · 2020年3月15日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【斯坦福新课】CS234：强化学习，附课程PPT下载

【斯坦福新课】CS234：强化学习，附课程PPT下载

专知会员服务

124+阅读 · 2020年1月15日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

【斯坦福大学】面向机器学习的概率和统计要点速览(中文版)《CS 229 - Probabilities and Statistics refresher》by Afshine Amidi, Shervine Amidi

【斯坦福大学】面向机器学习的概率和统计要点速览(中文版)《CS 229 - Probabilities and Statistics refresher》by Afshine Amidi, Shervine Amidi

专知会员服务

48+阅读 · 2019年12月19日

【斯坦福大学CS229】面向机器学习的线性代数和微积分要点速览(中文版)《CS 229 - Linear Algebra and Calculus refresher》by Afshine Amidi, Shervine Amidi

【斯坦福大学CS229】面向机器学习的线性代数和微积分要点速览(中文版)《CS 229 - Linear Algebra and Calculus refresher》by Afshine Amidi, Shervine Amidi

专知会员服务

198+阅读 · 2019年12月19日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

图卷积网络介绍及进展【附PPT与视频资料】

图卷积网络介绍及进展【附PPT与视频资料】

人工智能前沿讲习班

24+阅读 · 2019年1月3日

CIIS2018 演讲实录丨李武军：大数据机器学习

CIIS2018 演讲实录丨李武军：大数据机器学习

中国人工智能学会

9+阅读 · 2018年12月18日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

机器学习(28)【降维】之sklearn中PCA库讲解与实战

机器学习(28)【降维】之sklearn中PCA库讲解与实战

机器学习算法与Python学习

8+阅读 · 2017年11月27日

机器学习(27)【降维】之主成分分析(PCA)详解

机器学习(27)【降维】之主成分分析(PCA)详解

机器学习算法与Python学习

9+阅读 · 2017年11月22日

机器学习(23)之GBDT详解

机器学习(23)之GBDT详解

机器学习算法与Python学习

12+阅读 · 2017年10月25日

机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数

机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数

机器学习算法与Python学习

3+阅读 · 2017年9月23日

机器学习(7)之感知机python实现

机器学习(7)之感知机python实现

机器学习算法与Python学习

4+阅读 · 2017年7月23日

Spectral Clustering with Graph Neural Networks for Graph Pooling

Arxiv

25+阅读 · 2020年6月3日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Unifying Graph Convolutional Neural Networks and Label Propagation

Arxiv

31+阅读 · 2020年2月17日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

A General and Adaptive Robust Loss Function

A General and Adaptive Robust Loss Function

Arxiv

8+阅读 · 2018年11月5日

Classification with Fairness Constraints: A Meta-Algorithm with Provable Guarantees

Classification with Fairness Constraints: A Meta-Algorithm with Provable Guarantees

Arxiv

3+阅读 · 2018年8月2日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

Hashing as Tie-Aware Learning to Rank

Arxiv

5+阅读 · 2018年3月28日

SpectralLeader: Online Spectral Learning for Single Topic Models

Arxiv

4+阅读 · 2018年2月16日

VIP会员

相关主题

拉普拉斯矩阵

相关VIP内容

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知会员服务

104+阅读 · 2020年6月11日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

171+阅读 · 2020年5月10日

斯坦福2020硬课《分布式算法与优化》

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

机器学习速查手册，135页pdf

机器学习速查手册，135页pdf

专知会员服务

345+阅读 · 2020年3月15日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【斯坦福新课】CS234：强化学习，附课程PPT下载

【斯坦福新课】CS234：强化学习，附课程PPT下载

专知会员服务

124+阅读 · 2020年1月15日

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

【华盛顿大学】知识建模+生成式推理，60页ppt，Cracking Commonsense Intelligence with Knowledge Modeling + Generative Reasoning

专知会员服务

54+阅读 · 2019年12月27日

【斯坦福大学】面向机器学习的概率和统计要点速览(中文版)《CS 229 - Probabilities and Statistics refresher》by Afshine Amidi, Shervine Amidi

【斯坦福大学】面向机器学习的概率和统计要点速览(中文版)《CS 229 - Probabilities and Statistics refresher》by Afshine Amidi, Shervine Amidi

专知会员服务

48+阅读 · 2019年12月19日

【斯坦福大学CS229】面向机器学习的线性代数和微积分要点速览(中文版)《CS 229 - Linear Algebra and Calculus refresher》by Afshine Amidi, Shervine Amidi

【斯坦福大学CS229】面向机器学习的线性代数和微积分要点速览(中文版)《CS 229 - Linear Algebra and Calculus refresher》by Afshine Amidi, Shervine Amidi

专知会员服务

198+阅读 · 2019年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

图卷积网络介绍及进展【附PPT与视频资料】

图卷积网络介绍及进展【附PPT与视频资料】

人工智能前沿讲习班

24+阅读 · 2019年1月3日

CIIS2018 演讲实录丨李武军：大数据机器学习

CIIS2018 演讲实录丨李武军：大数据机器学习

中国人工智能学会

9+阅读 · 2018年12月18日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

机器学习(28)【降维】之sklearn中PCA库讲解与实战

机器学习(28)【降维】之sklearn中PCA库讲解与实战

机器学习算法与Python学习

8+阅读 · 2017年11月27日

机器学习(27)【降维】之主成分分析(PCA)详解

机器学习(27)【降维】之主成分分析(PCA)详解

机器学习算法与Python学习

9+阅读 · 2017年11月22日

机器学习(23)之GBDT详解

机器学习(23)之GBDT详解

机器学习算法与Python学习

12+阅读 · 2017年10月25日

机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数

机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数

机器学习算法与Python学习

3+阅读 · 2017年9月23日

机器学习(7)之感知机python实现

机器学习(7)之感知机python实现

机器学习算法与Python学习

4+阅读 · 2017年7月23日

相关论文

Spectral Clustering with Graph Neural Networks for Graph Pooling

Arxiv

25+阅读 · 2020年6月3日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Unifying Graph Convolutional Neural Networks and Label Propagation

Arxiv

31+阅读 · 2020年2月17日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

A General and Adaptive Robust Loss Function

A General and Adaptive Robust Loss Function

Arxiv

8+阅读 · 2018年11月5日

Classification with Fairness Constraints: A Meta-Algorithm with Provable Guarantees

Classification with Fairness Constraints: A Meta-Algorithm with Provable Guarantees

Arxiv

3+阅读 · 2018年8月2日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

Hashing as Tie-Aware Learning to Rank

Arxiv

5+阅读 · 2018年3月28日

SpectralLeader: Online Spectral Learning for Single Topic Models

Arxiv

4+阅读 · 2018年2月16日

大家都在搜

大型语言模型

朱克爱德华兹家族

滴滴司机调度系统实践

微信扫码咨询专知VIP会员