我们如何找到半监督学习的正确图?在实际应用中,选择用于计算的边是任何图学习过程中的第一步。有趣的是,通常有许多类型的相似性可供选择作为节点之间的边,而边的选择会极大地影响下游半监督学习系统的性能。然而,尽管图设计很重要,但大多数文献都认为图是静态的。
在这项工作中,我们提出了Grale,一个可扩展的方法,我们已经开发以解决图设计问题的数十亿节点。Grale通过将(潜在的弱)相似度的不同度量方法融合在一起,创建一个节点间具有高度任务特异性同质性的图。Grale是为在大型数据集上运行而设计的。我们已经在谷歌的20多个不同的工业设置中部署了Grale,包括拥有数百亿节点的数据集,以及数以万亿计的潜在边界。通过使用对位置敏感的哈希技术,我们大大减少了需要评分的对的数量,允许我们学习特定任务的模型,并以小时为这些数据集构建相关的最近邻居图,而不是可能需要的天甚至周。
我们通过一个案例研究来说明这一点,在这个案例研究中,我们研究了Grale在YouTube上一个有上亿项的滥用分类问题上的应用。在这个应用程序中,我们发现Grale可以在硬编码规则和内容分类器上检测到大量的恶意参与者,相对于单独使用这些方法,Grale的召回总量增加了89%。