腾讯犀牛鸟专项研究计划旨在连接产学智脑,搭建面向科技创新的产学研深度合作平台。2022年度三大专项研究计划已经发布,共计近20个研究主题,拟立项约70项。
2022腾讯微信犀牛鸟专项研究计划
在PC视频号的业务场景中,推荐是非常重要的组成部分。无论是针对个人的主页推荐,还是针对视频内页的相关推荐,图计算都扮演着重要角色。用户、视频以及作者数据异构,维度多而稀疏,且难以被获取。而目前的方法都基于用户、视频自身的画像特征,通过把微信用户之间的关系作为用户信息的补充,建立高效的图神经网络算法去学习关系数据表达,作为规则策略和有监督学习的互补方案,补足这些方法的短板,是本科研项目所解决的核心问题。
科研目标:构建PC视频号的人–人关联、人–视频、视频–作者关联,基于时空的异构关系网络,利用大规模图计算算法的去发现网络中的用户兴趣。技术储备1-2项,产出的成果在PC视频号推荐系统上得到应用。产出国际顶会论文1-2篇,专利1-2项。
可提供资源:真实PC视频号用户数据;Baseline系统及服务器资源支持。
关键词:用户兴趣,图计算,数据异构,推荐系统。
在PC视频号的业务场景中,推荐是非常重要的组成部分。无论是针对个人的主页推荐,还是针对视频内页的相关推荐,因果推断技术都扮演着重要角色。现有的无偏推荐算法大多假设用户行为是相互独立的,即用户之前的行为对当前行为没有影响。然而这在真实的推荐系统中很难成立,大量的研究表明用户的序列行为之间是高度相关的。因此使用因果推断技术探索用户序列行为对构建无偏推荐算法的影响是本科研项目所解决的核心问题。
科研目标:使用因果推断技术探索用户序列行为对构建无偏推荐算法的影响。技术储备1-2项,产出的成果在pc视频号推荐系统上得到应用。产出国际顶会论文1-2篇,专利1-2项。
可提供资源:真实PC视频号用户数据;Baseline系统及服务器资源支持。
关键词:推荐系统,用户行为。
随着用户在直播上观看行为越来越丰富,用户item序列也不断在增长。如果能从长序列中更好地学习用户的兴趣,那自然能提升产品的用户粘性,从而提高DAU和人均观看时长。金融借贷领域中,逾期情况层出不穷,如果能更好地处理用户历史行为序列,从行为序列中发现问题,就能进一步降低逾期率,从而带来更多的收益。使用序列特征进行attention处理在推荐系统,金融,自然领域处理等领域特别重要,序列过长时,sum pooling,mean pooling,attention目前都不能取得很好的效果,同时,很多序列处理的方法复杂度会随着序列长度成平方的增长,解决好长序列建模的问题可以优化效果和性能。
科研目标:实现相关算法在实际的金融风控和推荐业务落地,金融风控方面主要通过提升模型auc,在保证拦截用户相同的情况下,欺诈比例下降3%;在推荐业务方面通过提升模型auc,应用到业务中提升业务的转化率提升3%。形成一套挖掘长序列建模的方案技术方案,产出高水平论文2篇。
关键词:金融反诈骗,推荐系统,自然语言处理。
推荐系统中,往往基于用户-物品的交互来进行推荐。知识图谱中蕴含的结构化知识可以辅助推荐系统的可解释性,并扩展推荐系统的多样性。现有的知识图谱辅助推荐的方法,多考虑建模物品之间的实体与关系,而较少考虑刻画兴趣点之间的复杂关系及其演化。我们希望深入研究基于知识图谱的兴趣推理与扩展技术,通过弱监督学习、知识图谱结构挖掘、常识推理、强化学习等技术,习得基于用户-物品交互背后的显示兴趣表示,生成可解释的兴趣扩展路径,通过强化学习等方法探索潜在兴趣的扩展,并在学术数据集和微信大规模线上业务中验证其效果。
科研目标:研究成果在微信内推荐系统场景下落地技术1项以上,储备技术1项以上。产出国际顶会论文2篇以上,专利2项以上,引入实习生1名。
可提供资源:微信知识图谱及其他必要数据;GPU及CPU服务器。
关键词:弱监督学习,知识图谱结构挖掘,常识推理,强化学习。
公众号内容推荐场景有海量数据,但用户隐式反馈噪声多,显式反馈稀疏,长尾物品得不到充分学习。自监督学习利用辅助任务(pretext tasks)从大规模无监督数据中学习数据的自身规律。自监督学习在CV、NLP等领域大放异彩,在视觉表示上首次超越监督预训练。自监督学习应用到推荐领域,一方面更充分利用无监督数据缓解数据稀疏与长尾分布问题;另一方面利用数据增强与对比学习范式得到更好的表征,为下游推荐召回或排序任务提供特征或网络模块。科研目标:自监督学习应用到推荐面临三点问题与挑战:
从业务出发,如何设计有效的辅助任务(pretext tasks)提升下游推荐任务的效果?
如何设计自监督学习算法提升自监督学习、下游任务的效果?
如何设计推荐系统专用的极简化自监督预训练算法,快速落地到推荐业务?
期望通过对自监督学习应用到推荐的研究,提升公众号推荐效果。技术成果落地到公众号内容推荐召回和排序场景,提升公众号内容推荐指标(点击率、UV/PV、阅读时长与关系对留存)。产出国际会议论文1篇以上,专利1项。
可提供资源:微信公众平台脱敏业务数据;Spark & GPU计算平台。
关键词:自监督学习,推荐系统。