新用户和冷用户喜好预测问题一直是推荐系统领域的一个难题,广泛存在于计算广告,App推荐,电子商务和信息流推荐场景。目前绝大多数的解决方案都是基于用户外部画像数据进行喜好预测,因此预测准确率严重受制于画像数据准确率,并且用户画像数据搜集成本高,涉及敏感的隐私问题;另外,据笔者所知,即便具有十分精准的用户画像数据,新冷用户仍然很难做到个性化推荐,点击率和相应的top-N指标仍然显著低于常规热用户。那么关于用户冷启动的场景,有没有其他更好的解决办法呢?最近,一篇腾讯QQ看点团队SIGIR2020长文Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation 提出了一种迁移学习架构PeterRec专门解决新用户和冷用户推荐。PeterRec基本思想是通过自监督学习一个通用的用户表征,然后将该用户表征应用到下游任务中,例如冷启动用户场景(PeterRec同时可以解决用户画像预测)。从论文中的实验结果来看,这种采用自监督预训练网络学习用户点击行为的方法可以高效地推测出用户的偏好等信息。
近年来,迁移学习对CV和NLP领域产生了重大的影响,但尚未被广泛应用于推荐系统领域,并且据我们调查,推荐系统领域目前相应的迁移学习科研工作都没有明确的展示出pretrain网络对于下游任务具有positive transfer效果。而在腾讯,我们具有非常丰富的业务场景,部分业务,例如腾讯视频,QQ浏览器具有数亿的DAU用户,并且很多用户具有数百上千的点击行为,这些海量的用户点击行为为其他推荐业务场景(例如腾讯新闻,QQ看点,微视,腾讯广告, 应用宝,微信看一看)新冷用户提供了丰富的可迁移的知识,在本文中,由PCG腾讯新闻画像平台团队和看点推荐团队协力合作,对PeterRec模型进行工程化改造,落地到PCG事业群下面的多个推荐业务中。选择PeterRec模型除了其较好的个性化推荐能力外,很重要一点,PeterRec可以实现一个pretrain网络服务数十/百个推荐业务场景能力。下面我们选择两个视频推荐业务(分别作为source业务端和target业务端),将从模型架构,数据处理,模型实现,后续工作这四个方面来介绍。