理解用户的偏好在推荐场景尤为重要。然而在真实的工业场景(如支付宝APP)中,往往会针对一些特定的人群,如低活跃用户、新用户等,专门推荐特殊的券、权益、服务等,希望以此来提高其在特点产品中的活跃程度。但是直接使用这种低活跃场景的数据做建模是困难的,原因是这种场景往往标签少,且低活跃用户的特征稀少。
为了解决这种数据稀疏问题,一个常用的方法是迁移学习或多任务学习。即寻找一个数据充分的源领域场景,把该领域的知识迁移到目标领域,以解决目标领域缺少数据的问题。近年来,基于深度学习的跨领域迁移学习方法得到了广泛使用,比如基于实例的方法、映射的方法、基于网络的方法、基于对抗的方法等等。自然地,为了帮助某个目标领域的人群学的更好,通常可以加入拥有更大量级的用户在支付宝全域行为数据作为源领域,辅助目标领域的学习,通过上述迁移或多目标任务的方式。
然而,已有方法只关注如何将源领域的知识迁移应用到目标领域,而忽略了在迁移之前,源、目标领域是否具备一个合理的表征空间,使得任务可以迁移。以低活跃用户/新用户为例,这些用户自身特征几乎没有。简单的迁移无法将源丰富的信息对齐到他们身上。
为此,蚂蚁集团的研究人员提出一种结合图神经网络来做表征的迁移方法,该方法可以为低活跃用户/新用户学到更好的表征并应用于推荐中。思路很简单,分为两步:(1)对于无论是源领域用户还是目标领域用户,分析关系数据,探索什么关系对于用户自身的行为具有强相关性。找到强相关的关系数据,就可以通过去除自身的关系数据来表征自身。这样,模型就可以将无论是源领域还是目标领域的用户表征放在同一个表征空间下。(2)通过经典迁移方法将源领域的信息迁移到目标领域,从而帮助目标领域学的更好。
基于此,蚂蚁集团的研究人员提出了一种结合GNN表征学习能力的跨领域联合建模方案CD-GNN(Cross Domain-Graph Neural Networks),解决源领域和目标领域通过网络关联的情况下进行跨领域建模的问题。接下来,本文将介绍该方法的实现细节,及其在低活跃用户上的应用。