作者:高崇铭(中科大博士生)
数据集:https://kuairand.com
论文:https://arxiv.org/abs/2208.08696
继发布全曝光数据集KuaiRec(官网: https://kuairec.com)后,快手联合中科大继续发布另一重量级数据集:KuaiRand,名字寓意为Kuaishou的Random推荐数据。该数据集牺牲了一部分推荐性能以收集用户对随机视频的真实反馈,以利好后续的科学研究,在业界难能可贵!现本文已中CIKM '22的Resource Paper,详情查看本数据集的官网:https://kuairand.com。更多CIKM2022推荐系统论文可移步CIKM2022推荐系统论文集锦。
本文在简单介绍该数据集后,将浅谈一下该数据集对领域的独特贡献。
如今短视频成为人们熟知的内容载体。上图展现了快手的视频推荐界面,左边是双列界面,需点击特定视频才能播放;右边是单列的界面,默认自动播放,上下滑可切换到下一个视频。页面上有大量的交互按钮,如“喜欢”、“转发”、“分享”等,均可作为用户对推荐视频的反馈信号。
而KuaiRand数据集,是这样视频序列推荐场景中第一个插入了随机视频的数据集。下图展现了某个用户的一个视频推荐流。时间跨度从2022年4月08日到2022年5月8日。四周的数据被分为两部分,前两周的数据均是正常推荐的视频,而后两周的数据则在正常推荐流中的任意位置以小概率插入了随机的视频。本次发布的数据集忠实地公布了15个推荐场景(不同页面)中用户对所有推荐视频的12种反馈。
下表将对比本数据集与目前最主流的包含随机数据的推荐数据集,以说明本数据集全方面的优势。
目前主流使用的具有随机曝光商品的推荐数据集是Coat和Yahoo!R3, 最近又有一个发布的Open Bandit数据集。然而,它们要么缺乏显式的用户id(仅以特征向量表示每个用户),要么信息量过于小(如Coat仅包含上百个用户和商品,Yahoo!R3没有额外特征)。在所有维度上,KuaiRand数据集都具有碾压级优势。
另外,再谈谈KuaiRand比起此前发布的KuaiRec的优势:(1)KuaiRand的无偏性更强,其随机视频是随机插入到用户的标准推荐流中,避免了曝光偏差、流行性偏差;(2)KuaiRand的数据具有很强的时序性,把所有用户在四周内的所有交互视频全都忠实记录了下来;(3)KuaiRand记录了用户的12种反馈,更能从用户的行为中发现其兴趣。
以下研究方向都是目前推荐检索关注的很有前景的研究方向:
总之,该数据集潜力巨大,在很多前沿方向上有着不可代替的价值。
为方便研究,我们一次性发布了数据集的三个版本:
三个版本的数据示意图如下,用户ID与视频ID已经严格按照下图所示重新编号。
使用建议:若你的研究需要严格的连续序列,则用27K和1K版本,例如OPE问题、交互式推荐、强化学习、Bandit Learning、超长序列建模。若你的研究侧重点在其他方面,比如推荐的去偏、多任务学习以及传统静态推荐模型,则可以用更精简的Pure版本。
此外,如果你的需求还包括对在线模型进行evaluation,可以尝试之前发布的全曝光数据集,详情请参见这篇博文:快手+中科大 | 全曝光推荐数据集KuaiRec 2.0版本。
由于国家最近出台了个人隐私信息保护法以及数据出境安全评估办法,快手积极响应并进行严格实施。故目前暂时不能将数据完全公开,且暂时不能提供给境外机构和境外个体使用。
目前的数据获取方式为合作制获取:需要的老师同学们以国内大学的名义给下面专用邮箱发邮件申请。填写快手拟定的协议,以大学或实验室为单位与快手建立合作,即可获得本数据集。
快手在确定使用协议之后,会第一时间回复专用邮箱中的申请。同时,快手也在努力推动本数据的出境申请以及公开事项,争取为科学研究做出贡献。
本数据集的详情以及最新进展请见官网:https://kuairand.com
由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。