HIRE——基于异构图神经网络的高阶关系级知识蒸馏方法

2022 年 8 月 17 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 刘静

单位 | 中科院计算技术研究所博士生

研究方向 | 异构图神经网络、知识蒸馏

由于异构图在学术界和工业界的普遍存在，研究人员最近提出了大量的异构图神经网（HGNN）。与追求更强大的 HGNN 模型不同，本文更加感兴趣的是设计一个通用的即插即用模块，该模块从预先训练的 HGNN 中提取相关知识。据我们所知，本文是首篇提出异构图神经网络上的高阶关系（HIgh-order RElational, HIRE）知识蒸馏框架，该框架可以显著提高异构图神经网络模型的性能。

具体来说，该方法通过进行节点级知识蒸馏（Node-level Knowledge Distillation, NKD），对预训练异构教师模型的单个节点语义进行编码；通过进行关系级知识蒸馏（Relation-level Knowledge Distillatio, RKD），对预训练异构教师模型的不同类型节点之间的语义关系进行建模。

通过整合节点级知识蒸馏和系级知识蒸馏，这种高阶关系知识蒸馏方法成为一种实用且通用的训练方法，适用于任意的异构图神经网络，不仅提升了异构学生模型的性能和泛化能力，而且保证了对异构图神经网络的节点级和关系级知识提取。

论文标题：

HIRE: Distilling high-order relational knowledge from heterogeneous graph neural networks

论文单位：

中科院计算技术研究所 & 浙江大学

论文链接：

https://www.sciencedirect.com/science/article/pii/S0925231222009961 https://arxiv.org/abs/2207.11887

方法

1.1 动机

近年来，为了解决异构图中节点和边的异质性问题，研究人员提出了许多基于 HGNN 的方法，主要分为基于元路径的方法和基于边关系的方法。虽然现有的 HGNN 已经取得了很好的性能，但它们的表示能力受限于：（1）数据标注不精确。一般来说，HGNN 的训练方式属于半监督学习，因此其性能高度依赖于大量高质量的标签数据。然而，模糊的数据标注将成为 HGNN 建模的瓶颈；（2）不同类型节点之间的语义关系建模困难。尽管元路径被用于异构图中的高阶语义建模，但是不同领域的元路径选择仍然具有挑战性，因为它需要足够的领域知识。

近年来，深度学习中的知识蒸馏（KD）技术在提升模型的性能上展现出一定的优点。目前，有一些工作尝试将知识蒸馏方法和图神经网络结合在一起进行应用。虽然这些蒸馏方法的性能很好，但它们都是为同构图神经网络设计的，其中处理的数据中每个节点或边都是相同的类型。

那么如何在 HGNN 上设计出一种高效通用的知识蒸馏方法呢？本文提出 HIRE 方法来解决该问题，具体实现见下文。

1.2 创新

本文工作的创新点主要有 3 点:

1. 据我们所知，本文是第一个研究异构图上的知识蒸馏研究问题的工作。值得注意的是，本文通过考虑异构图的二阶关系知识来建模 HGNN 的高阶知识。

2. 本文提出了一个新的知识蒸馏框架——HIRE，同时考虑单个节点软标签和不同节点类型之间的相关性知识。后者通过引入类型相关的注意层来获取异构图中不同类型节点的丰富语义信息，从而将不同节点之间的关系知识传递给学生。

3. 本文在流行的 HGNN 模型上进行了广泛的实验，证实了 HIRE 框架的有效性和强泛化能力。

1.3 HIRE

本文提出的高阶关系知识蒸馏 HIRE 模型框架如下图 2 所示，主要包含两个组件：一阶节点级知识蒸馏 NKD 和二阶关系级知识蒸馏 RKD，分别用来解决 HGNN 目前面临的两大挑战。

其中 RKD 的具体实现可见下图 1c。

1.4 NKD

针对数据标签标注不精确的问题，本文引入一阶节点级知识蒸馏（NKD）方法，将目标节点（如电影数据中的电影）的软标签传递给学生，为下游任务（如节点分类）提供一般的监督信息，解决节点标注问题。

1.5 RKD

针对异构图中不同类型节点之间的语义关系建模问题，设计二阶关系级知识蒸馏（RKD）方法，从预训练教师模型中编码不同节点类型之间的关系知识转移到学生模型中，为下游任务(如节点分类)提供高阶关系语义监督信息，解决软性建模语义关联问题。

1.6 训练

HIRE 模型训练过程见下面算法 1：

实验

本文通过大量的实验主要回答以下三个问题：

RQ1：HIRE 在节点分类、节点聚类和节点可视化任务上的整体表现如何？
RQ2：HIRE 中的 NKD 和 RKD 这两个组件分别起着什么样的作用？
RQ3：超参数的不同设置如何影响 HIRE 框架的整体预测性能？

3.1 数据集

本文使用的数据集包括 ACM、IMDB 等常用基准数据集，具体如下表 3 所示：

3.2 节点分类

HIRE 方法在 ACM 数据集上的节点分类实验结果如表 4 所示，发现随着培训比例的增加，学生模型性能均获得一致显著提升，提升范围为 0.1% ∼ 3.1%，这表明本文提出的 HIRE 方法的有效性和强泛化能力。HIRE 在其他两个数据集上的效果详细可见论文。

3.3 节点聚类

如表 7 所示，HIRE 方法在节点聚类任务上仍表现出卓越的性能，学生模型能够持续显著地提高相应教师模型的性能，最高可达∼53.3%。

3.4 节点可视化

为了更直观的比较，本文还进行了节点可视化任务。以 ACM 数据集为例，从图 3 中，可以观察到相较于教师模型，学生模型可以提供清晰的边界，使得类内相似性变高，类间隔变大。

3.5 消融实验

3.5.1 不同阶知识蒸馏效果对比

为了验证 HIRE 每个组件的有效性，本文进一步对不同的 HIRE 变体进行了实验。其中，CE（交叉熵）等价于教师模型。四种变体的实现效果如下图 5 所示，整体表现出 HIRE ≥ RKD ≫ NKD > CE。

3.5.2 注意力值可视化

HIRE 的一个显著特性是加入了一个类型相关的注意层模块，为了验证该模块的作用，本文对不同异构节点的注意力值进行可视化，实验结果如下图 7 所示：发现该模块可以自是定获取不同节点类型和边的高阶语义监督信息。

3.6 参数敏感性实验

通过在 3 个数据集上对所有异构模型的超参数进行参数敏感性实验，HIRE 对参数不敏感，具有很好的鲁棒性。

总结

本文首次提出了基于 HGNN 的高阶关系（HIgh-order RElational, HIRE）知识蒸馏框架，填补了从异构图神经网络模型中提取知识的空白。在 ACM、IMDB 和 DBLP 数据集上进行的大量实验证明了我们提出的 HIRE 的有效性，尤其可以自适应获取高阶语义，且可适用于任意的异构图神经网络。

更多阅读