【KDD2020-Google】动态图设计的图学习

我们如何找到半监督学习的正确图?在实际应用中，选择用于计算的边是任何图学习过程中的第一步。有趣的是，通常有许多类型的相似性可供选择作为节点之间的边，而边的选择会极大地影响下游半监督学习系统的性能。然而，尽管图设计很重要，但大多数文献都认为图是静态的。

在这项工作中，我们提出了Grale，一个可扩展的方法，我们已经开发以解决图设计问题的数十亿节点。Grale通过将(潜在的弱)相似度的不同度量方法融合在一起，创建一个节点间具有高度任务特异性同质性的图。Grale是为在大型数据集上运行而设计的。我们已经在谷歌的20多个不同的工业设置中部署了Grale，包括拥有数百亿节点的数据集，以及数以万亿计的潜在边界。通过使用对位置敏感的哈希技术，我们大大减少了需要评分的对的数量，允许我们学习特定任务的模型，并以小时为这些数据集构建相关的最近邻居图，而不是可能需要的天甚至周。

我们通过一个案例研究来说明这一点，在这个案例研究中，我们研究了Grale在YouTube上一个有上亿项的滥用分类问题上的应用。在这个应用程序中，我们发现Grale可以在硬编码规则和内容分类器上检测到大量的恶意参与者，相对于单独使用这些方法，Grale的召回总量增加了89%。