相比CNN、RNN等成熟技术而言,GNN还处于探索阶段,Graph之于GNN,不如图像之于CNN、自然语言之于RNN那样理所当然。即便有Graph数据,如何使用GNN没有可遵循的固定模式,更没有沉淀下来的类似卷积一样的算子可直接调用。GNN的有效性需要更多的场景去验证,而每一个场景都需要开发者的深入理解,开发者有能力处理Graph数据和编写之上的深度学习模型。有了百花齐放的应用场景做铺垫,才有可能抽象出共性的GNN算子和算法,再将这些相对成熟的能力赋给使用者,GNN才会真正的推广开来。出于这些考虑,比起开发一个成熟算法供用户使用,平台当前阶段会更侧重提供API给开发者,让开发者有能力贴近自己的场景去实现GNN。
另一方面,工业场景中的Graph数据十分复杂,而且数据量巨大。平台不能脱离场景而独立存在,必须以业务为驱动,才最可能孵化出有实际价值的产品。以阿里巴巴的电商推荐场景为例,每天的产生的图数据多达几百TB,而且高度异构(多种类型的顶点、多种类型的边),顶点和边具有丰富的属性,诸如商品的名称、类目、价格区间,甚至是其关联的图像、视频等,这些属性以明文存在而非已经向量化好的结构化信息。以这样的数据为输入,如何高效的进行GNN训练是一个非常有挑战的问题。如果使用数据预处理、预训练等手段把Graph数据结构化、向量化,会耗费大量的计算资源、存储资源和人力成本。真正对GNN开发者友好的平台,应该是端到端的,在一套IDE里,用户既可以操作复杂的Graph数据,又可以将数据与深度神经网络对接,自由编写上层模型。平台提供简单灵活的接口,满足GNN高速发展所需的可扩展性与生态的兼容性,和针对复杂的分布式环境的大规模与稳定性。
Graph-Learn(GL,原AliGraph) 是面向大规模图神经网络的研发和应用而设计的一款分布式框架, 它从实际问题出发,提炼和抽象了一套适合于当下图神经网络模型的编程范式, 并已经成功应用在阿里巴巴内部的诸如搜索推荐、网络安全、知识图谱等众多场景。
斯坦福CS224W《图机器学习》2021课程开始了!Jure Leskovec大牛主讲,附课程PPT下载