机器学习的成功很大程度上取决于数据。但是,高质量的标记数据通常很昂贵且难以获得,尤其是对于训练参数较多的模型。而我们却可以很容易地获取大量的无标记数据,其数量可能是标记数据的数千倍。
为了解决标注数据较少的问题,我们要尽可能利用其无标注数据,一个常规的做法是自监督的预训练(self-supervised pre-training)。其目标是设计合理的自监督任务,从而使模型能从无标注数据里学得数据的信息,作为初始化迁移到下游任务中。由于目标任务中很多的知识已经在预训练中学到,因此通过预训练,我们只需要非常少量的标注数据,就能得到较好的泛化性能。
这里我们为大家推荐四篇有关于GNN预训练的文章:
Learning to Pre-train Graph Neural Networks
Pre-Training Graph Neural Networks for Cold-Start Users and Items Representation
GPT-GNN: Generative Pre-Training of Graph Neural Networks
Strategies for Pre-training Graph Neural Networks