论文浅尝 - KDD2020 | 真实世界超图的结构模式和生成模型

2020 年 8 月 16 日 开放知识图谱

论文笔记整理：毕祯，浙江大学硕士，研究方向：知识图谱、自然语言处理。

链接：https://arxiv.org/abs/2006.07060

动机

图已被用作对人或物体之间的成对关系建模的强大工具。而超图是更广泛概念的一种特殊类型，其中每个超边可以由任意数量的节点组成，而不是仅由两个组成。大量的现实世界数据集都是这种形式的。比如电子邮件的收件人列表，参与讨论主题的用户或在线问题中标记的主题标签等。由于这些情况表示形式复杂且缺少适当的工具，因此在研究中很少会去关注探索这些问题的建模与算法。

本篇论文根据经验研究了多个跨领域的真实世界超图数据集。为了进行深入研究，引入了多级分解方法，该方法通过一组成对图表示每个超图。每个成对图（称为k级分解图）捕获了k个节点的子集对之间的交互。通过经验的总结，在每个分解级别，所研究的超图都遵循五个结构特性或者指标。这些属性用作评估超图的逼真度的标准，并为超图生成问题奠定基础。文章最后提出了一种超图生成器，采取了非常简单的思路，但是能够满足这些评估指标。与此相比的是其他对比模型则很难达到同样的效果。

背景

图1 超图的例子

超图是图的一般化，其中边可以连接任意数量的顶点。相反在普通图中，一条边正好连接两个顶点。在图1中，假设顶点代表文章，每条边代表两个顶点享有同一个作者。如果使用简单的图结构来表示，就会丢失“同一作者发表多篇文章”这样集合的信息。实际生活中存在着大量类似的图结构，而超图是相对合适的表示方法。

多级分解方法

定义：

其中：

图2 超图的多级分解

利用分解图具有几个优点：

（1）子集交互：分解后的图揭示了节点子集之间的子集交互。

（2）成对图表示：分解后的图可以使用成对图的现有度量进行分析。

（3）没有信息丢失：原始的超图可以从分解后的图中恢复。

观测指标

论文证明了下列的结构模式在真实超图的分解图的每个级别中均有效。

（P1）Giant connected component：巨型连接分量

此属性意味着存在一个包含大量节点的连接分量，并且该比例显着大于第二大连接分量（至少大70倍）。网络中的大多数节点都相互连接。此属性用作其他属性的基础。

（P2）Heavy-tailed degree distribution：重尾度分布

节点的度数定义为其邻居数。此属性意味着度分布是重尾的，即以比指数分布慢的速率衰减。这可以用“rich gets richer”来部分解释：高级节点更有可能形成新的链接。

（P3）Small effective diameter：有效直径小

分解的图通常不完全连接，论文采用的定义，其中有效直径是最小距离d，使得所有连接对中的大约90％可以通过最长d的路径到达。此属性意味着实际数据集中的有效直径相对较小，并且大多数连接对可以以较小的距离到达。需要注意的是，空模型也具有此特征，并且在这方面比较实际数据集和相应的空模型不会产生一致的结果。

（P4）High clustering coefficient：高聚类系数

利用聚类系数C，定义为所有节点的局部聚类系数的平均值。每个节点v的局部聚类系数Cv定义为：

此属性意味着实际数据集中的统计量明显大于相应的空模型中的统计量。由于邻居结构产生大量三角形，因此此属性表示网络中存在许多邻居结构。

（P5）Skewed singular values：偏斜奇异值

此属性意味着奇异值分布通常是重尾分布，并且以与模式P2相同的方式进行验证。

HpyerPA生成器

生成器HyperPA反复向超图引入新节点，并形成新的超边缘。添加节点后，HyperPA会创建k个新的超边缘，其中从预定分布NP中采样了k个。对于此新节点引入的每个新超边缘，其大小s是从预定分布S中采样的。当选择其他节点填充此新超边缘时，它将考虑包含s-1个节点的所有组。在所有此类群体中，每个群体被选中的机会与其程度成正比。每个组的程度定义为包含该组的超边缘的数量。