在多样化的上下文中生成的数据可以被建模为图。例如有众多,从引文和社交网络到万维网。许多实际网络都是多方面的,其中多种类型的实体通过各种关系相互交互。同样,它们中的许多都是动态的,模拟随时间演变的实体及其特性之间的关系。这些具有丰富边信息(例如,节点和边类型,以及边时间戳)的实际网络自然被建模为张量(即,多维数组)。
考虑到图和张量,我们如何理解它们,并利用它们进行下游任务?具体来说,我们如何分析和建模大型实际网络,并更好地了解它们是如何形成和演化的?还有,我们如何设计算法利用图和张量来进行如推荐和排名等重要的应用?本论文专注于通过开发用于挖掘和学习图和张量的有效和高效的方法来解决这些基本问题。 在论文的第一部分,我们专注于解决静态图和张量的重要挖掘和学习任务。我们首先提出了新颖的图正则化半监督算法,用于估计知识图中的节点重要性,比最佳基线实现了高达25%的更高精度。然后,我们开发了大规模张量分解的分布式框架,这可以分解和总结大张量,速度比现有方法快180倍,几乎呈线性可伸缩性。我们还设计了一种基于元学习的方法,用于自动图学习模型选择,这比持续使用流行方法更精确15倍。另外,我们开发了一种解释产品推荐的方法,通过在产品图上进行个性化推断,比最佳基线更准确21%。
在论文的第二部分,我们专注于与动态图和张量的建模和推理,它们代表了各种类型的时变网络和动态实际现象。我们提出了一个学习差分方程(DEs)的框架,该框架模型观察到的现象(例如天气和水质),生成可解释的和物理上可信的DEs,比相关基线实现了高达34%的更高预测精度。然后,我们通过设计对比图聚类框架来解决在网络中寻找社区并跟踪它们的演化的任务,该框架显示出比现有方法更高27%的聚类精度。此外,我们开发了一种用于推理时态知识图(TKGs)的方法,该方法从给定的TKG中推断出新知识,比最佳基线更准确116%,同时在模型培训中更快30倍。
在整个论文中,我们强调开发有效、准确和可伸缩的工具。为此,我们使用数学技术(例如,近似),利用实际网络的特性,整合先前的知识和经验,并使用强大的理论和实践框架,包括图神经网络、潜变量建模、时态点过程和分布式计算。我们成功地将这些工具应用于大量实际数据集和应用,建立了新的最先进的结果。