主流的异质网络嵌入技术利用元路径来刻画节点间的结构和语义联系。如下图文献数据所示,元路径APA和APCPA分别描述了两作者间的共同作者关系和共同会议关系。现有基于元路径的异质网络嵌入方法要么只使用一条元路径,从而不可避免地导致信息丢失;要么依赖某些策略来融合多条元路径,可将其流程归结为下图(c) 所示的两步框架:首先,基于元路径进行随机游走提取节点序列,并通过某些优化模型学习节点表示,如skip-gram等;然后,将多条元路径下的表示通过拼接或加权组合等策略融合得到最终节点表示。
虽然现有基于元路径的异质网络嵌入方法已经展现出强劲性能,但难以揭示不同元路径所得节点表示中的潜在语义联系与区别。以元路径 APA 和 APCPA 为例,某作者与跨学科同行合作或在跨学科会议发表论文可能会使其研究方向难以预测。为解决该问题,本文再次剖析元路径在异质网络分析中的作用:(1) 元路径间高度相关,其公共部分揭示了节点的固有特征。元路径APA 和 APCPA 分别描述了微观的共同作者关系和宏观的共同会议关系,但实际上都捕捉了作者间的内在联系,即相似的研究方向。(2) 元路径从不同角度描述节点特征,一旦某条元路径上的边稀疏或噪音较大,其特有语义可能会干扰节点分析。APCPA 中的跨学科会议可能会误导作者的研究方向预测,APA 中的跨学科合作者同理。因此,上述不同元路径捕捉的高度相关子结构驱使本文在元路径融合时提纯出更鲁棒更本质的固有特征。
不同元路径所得节点序列部分重叠但又不同,反映出语义高度纠缠。因此,即使意识到提纯固有特征的必要性,其实现也并非易事:(1) 如何确定不同元路径下节点表示的固有特征和特有特征?从固有特征和特有特征的概念上来看,固有特征对于元路径种类应具有不变性,而特有特征应强依赖于元路径语义。例如,某作者的研究方向决定了他将投稿至哪些会议或与哪些研究人员合作,因此该性质应对元路径APCPA和APA保持不变,但特定会议和合作者带来的误导信息依赖于相应元路径语义。(2) 如何在没有监督信息的情况下将固有特征和特有特征解耦?由于没有针对固有特征或特有特征的监督标签,必须设计一种合适的自监督信息来保证解耦效果。
本文首次尝试在异质网络上利用解耦思想从多条元路径中分离固有和特有节点表示。具体地,本文提出基于对抗解耦器的异质网络嵌入框架HEAD。为分离固有和特有表示,元路径解耦器将每个元路径下的节点表示分别映射至固有和特有空间中。进一步地,利用元路径种类作为自监督信息设计两个对抗学习器(即元路径鉴别器和语义鉴别器)保证固有表示和特有表示的充分解耦。具体地,元路径鉴别器保证固有表示不依赖于元路径选择,而语义鉴别器增强特有表示与元路径语义间的相关性。
总之,本文的主要贡献总结如下:
本文第一个研究异质网络中节点的固有和特有因素,并提出了一种基于解耦的解决方案来提纯出固有表示。固有表示对于异质网络分析具有很重要的意义,因其减轻了元路径依赖性并减少了噪声干扰。 本文设计了一个新的框架 HEAD,基于对抗解耦器将固有表示与特有表示分离来进一步提高表示的鲁棒性。此外,HEAD 是一种无监督的解耦方法,可以有效吸收各种元路径中的固有因素,从而增强现有的基于元路径的异质网络嵌入方法。 本文在四个公共数据集进行了实验。与最先进的基线方法相比,性能提升最大可达 15%, 充分证明了 HEAD 的有效性和固有表示的优越性。