图机器学习在学术界和工业界都得到了广泛的研究。然而,随着图学习相关文献的不断涌现,涌现出大量的方法和技术,手工设计出针对不同图相关任务的最优机器学习算法变得越来越困难。为了解决这一问题,自动图机器学习(automated graph machine learning)正受到越来越多的研究领域的关注,它旨在为不同的图任务/数据在没有人工设计的情况下发现最佳的超参数和神经结构配置。在本文中,我们广泛地讨论了自动化图机器方法,包括超参数优化(HPO)和神经结构搜索(NAS)的图机器学习。我们将分别简要介绍现有的用于图机器学习和自动机器学习的库,并进一步深入介绍AutoGL,这是我们专门的、也是世界上第一个用于自动图机器学习的开源库。最后,我们分享了对自动图机器学习未来研究方向的见解。这篇论文是第一个系统和全面的讨论的方法,库以及自动化图机器学习的方向。
https://www.zhuanzhi.ai/paper/40c22aa30f77abb145fb4ccdd5e0424d
图数据在我们的日常生活中无处不在。我们可以使用图表来模拟实体之间的复杂关系和依赖关系,从物理模拟中的蛋白质和粒子中的小分子到全国性的大型电网和全球航空公司。因此,图机器学习,即图上的机器学习,一直是学术界和业界[1]的重要研究方向。其中,网络嵌入[2]、[3]、[4]、[5]和图神经网络(GNN)[6]、[7]、[8]在近十年来受到越来越多的关注。它们已成功应用于推荐系统[9]、[10]、欺诈检测[11]、生物信息学[12]、[13]、物理模拟[14]、交通预测[15]、[16]、知识表示[17]、药物再利用[18]、[19]和Covid-19大流行预测[20]。
尽管图机学习算法非常流行,但现有文献中大量使用人工超参数或架构设计来获得最佳性能,导致在各种图任务中出现大量模型时耗费大量人力。以GNN为例,仅在2021年的顶级机器学习和数据挖掘会议上,就至少有100个新的通用架构被发表,更不用说针对特定任务的设计的跨学科研究了。如果我们在设计目标任务的最优算法时坚持手工尝试和错误的范式,就不可避免地需要更多的人力。
另一方面,自动机器学习(AutoML)已被广泛研究,以减少开发和部署机器学习模型[21],[22]的人力。完整的AutoML管道有潜力实现机器学习的每一步自动化,包括自动数据收集和清洗、自动特征工程、自动模型选择和优化等。由于深度学习模型的普及,超参数优化(HPO)[23]、[24]、[25]、[26]和神经结构搜索(NAS)[27]、[28]研究最为广泛。AutoML在计算机视觉[32],[33]等领域几乎没有人的指导,但它的性能已经达到或超过了人类水平[29],[30],[31]。
自动图机器学习结合AutoML和图机器学习的优点,自然成为进一步提高模型性能的一个很有前途的研究方向,引起了社会各界越来越多的兴趣。在本文中,我们系统地概述了自动化图机器学习的方法,介绍了相关的公共库以及世界上第一个用于自动化图机器学习的开源库AutoGL,并分享了我们对挑战和未来研究方向的见解。
我们特别关注两个主要课题: 图机器学习的HPO和NAS。对于HPO,我们关注的是如何开发可扩展的方法。对于NAS,我们遵循文献,从搜索空间、搜索策略和性能评估策略等方面比较不同的方法。简要介绍了近年来自动化图学习在架构池化、结构学习、加速器和关节软硬件设计等方面所取得的成果。此外,还讨论了如何用不同的方法解决AutoML在图上的挑战。然后,我们回顾了与自动图机器学习相关的库,并讨论了第一个用于自动图机器学习的专用框架和开源库AutoGL。重点介绍了AutoGL的设计原则,并简要介绍了它的使用方法,这些方法都是专门为图上的AutoML而设计的。最后,我们指出了图HPO和图NAS的潜在研究方向,包括但不限于可扩展性、可解释性、分布外泛化、鲁棒性和硬件感知设计等。我们相信本文将极大地促进和进一步促进自动图机器学习在学术界和工业界的研究和应用。
本文的其余部分组织如下。在第二节中,我们通过简要介绍图机器学习和AutoML的基本公式来介绍自动图机器学习的基础和初步。我们在第3节全面讨论了基于HPO的图机器学习方法,在第4节全面讨论了基于NAS的图机器学习方法。然后,在5.1节中,我们概述了与图机器学习和自动机器学习相关的库,并深入介绍了AutoGL,这是我们专门为自动图机器学习定制的开源库,也是世界上第一个。最后但并非最不重要的是,我们在第6节概述了未来的研究机会,并在第7节总结了整个论文。
图自动机器学习
自动图机器学习是AutoML和图机器学习的有力结合,它面临着以下挑战:
图机器学习的独特性: 与具有网格结构的音频、图像或文本不同,图数据位于非欧氏空间[35]。因此,图机器学习通常具有独特的架构和设计。例如,典型的NAS方法专注于卷积和循环操作的搜索空间,这与GNNs[36]的构建块不同。
图任务的复杂性和多样性: 如上所述,图任务本身是复杂和多样化的,从节点级到图级问题,具有不同的设置、目标和约束[37]。如何将恰当的归纳偏误和领域知识集成到图的AutoML方法中是必不可少的。
可扩展性: 许多真实的图,如社交网络或Web,都具有令人难以置信的规模,具有数十亿个节点和边[38]。另外,图中的节点是相互连通的,不能作为独立的样本。为图设计可扩展的AutoML算法提出了重大的挑战,因为图机器学习和AutoML都因计算密集而备受诟病。
在后面的章节中,我们将回顾使用HPO或NAS来进行图机器学习的方法,其目标是处理这三个挑战中的至少一个。因此,我们将从两个方面讨论自动图机器学习的方法: i)用于图机器学习的HPO和 ii)用于图机器学习的NAS。
未来方向
可扩展性: AutoML已经成功地应用于各种图的场景,但在大规模图的可扩展性方面仍有许多值得进一步研究的方向。一方面,虽然文献[39]对大规模图机学习的HPO进行了初步探索,但模型中使用的贝叶斯优化算法效率有限。因此,如何降低计算成本,实现快速超参数优化将是一个有趣且具有挑战性的课题。另一方面,尽管大规模图的应用在现实世界中非常普遍,但NAS用于图机器学习的可扩展性却很少受到研究者的关注,这为进一步的探索留下了很大的空间。
可解释性: 现有的自动图机器学习方法主要基于黑盒优化。例如,目前还不清楚为什么某些NAS模型比其他模型表现得更好,NAS算法的可解释性还缺乏系统的研究。对于图机器学习的可解释性[135],以及通过超参数重要性去相关的可解释性图超参数优化[40],已有一些初步的研究。然而,进一步深入研究自动图机器学习的可解释性仍具有重要意义。
分布外泛化: 当应用到新的图数据集和任务时,仍然需要大量的人力来构建特定于任务的图HPO配置和图NAS框架,例如空间和算法。当前的图HPO配置和NAS框架的泛化是有限的,特别是训练和测试数据来自不同的分布[136]。研究能够处理连续快速变化任务的图HPO算法和图NAS算法的非分布泛化能力将是一个很有前途的方向。
鲁棒性: 由于AutoML在图上的许多应用是风险敏感的,例如金融和医疗保健,模型的健壮性对于实际使用是必不可少的。虽然对图机器学习的鲁棒性有一些初步的研究[137],但如何将这些技术推广到自动图机器学习中还没有进行探讨。
AutoML的图模型: 在本文中,我们主要关注如何将AutoML方法扩展到图。另一个方向,即使用图形来帮助AutoML,也是可行的和有前途的。例如,我们可以将神经网络建模为有向无环图(DAG)来分析其结构[138]、[93],或者采用gnn来促进NAS[90]、[139]、[140]、[141]。最终,我们期望图和AutoML形成更紧密的连接,并进一步相互促进。
硬件感知模型: 为了进一步提高自动图机器学习的可扩展性,硬件感知模型可能是一个关键步骤,特别是在真实的工业环境中。硬件感知的图模型[142]和硬件感知的AutoML模型[143]、[144]、[145]都已经进行了研究,但这些技术的集成仍处于早期阶段,面临着巨大的挑战。
综合评价协议: 目前,大多数AutoML在图上是在小型的传统基准上进行测试的,如三个引文图,即Cora、CiteSeer和PubMed[119]。然而,这些基准被认为不足以比较不同的图机器学习模型[146],更不用说图上的AutoML了。需要更全面的评估协议,例如,最近提出的图机器学习基准[37],[147],或新的专用图AutoML基准类似于NAS-bench系列[148]。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“AGML” 就可以获取《清华大学朱文武等发布「自动图机器学习」最新2022综述,阐述AGML方法、库与方向》专知下载链接