Pinterest is a leading visual discovery platform where recommender systems (RecSys) are key to delivering relevant, engaging, and fresh content to our users. In this paper, we study the problem of improving RecSys model predictions for cold-start (CS) items, which appear infrequently in the training data. Although this problem is well-studied in academia, few studies have addressed its root causes effectively at the scale of a platform like Pinterest. By investigating live traffic data, we identified several challenges of the CS problem and developed a corresponding solution for each: First, industrial-scale RecSys models must operate under tight computational constraints. Since CS items are a minority, any related improvements must be highly cost-efficient. To address this, our solutions were designed to be lightweight, collectively increasing the total parameters by only 5%. Second, CS items are represented only by non-historical (e.g., content or attribute) features, which models often treat as less important. To elevate their significance, we introduce a residual connection for the non-historical features. Third, CS items tend to receive lower prediction scores compared to non-CS items, reducing their likelihood of being surfaced. We mitigate this by incorporating a score regularization term into the model. Fourth, the labels associated with CS items are sparse, making it difficult for the model to learn from them. We apply the manifold mixup technique to address this data sparsity. Implemented together, our methods increased fresh content engagement at Pinterest by 10% without negatively impacting overall engagement and cost, and have been deployed to serve over 570 million users on Pinterest.


翻译:Pinterest是一个领先的视觉发现平台,其中推荐系统对于向用户提供相关、吸引人且新鲜的内容至关重要。本文研究了改进推荐系统模型对冷启动物品预测效果的问题,这类物品在训练数据中出现频率较低。尽管该问题在学术界已有广泛研究,但鲜有研究能在Pinterest这样规模的平台上有效解决其根本原因。通过分析实时流量数据,我们识别出冷启动问题的若干挑战,并针对每项挑战提出了相应解决方案:首先,工业级推荐系统模型必须在严格的计算约束下运行。由于冷启动物品占少数,任何相关改进措施都必须具备高成本效益。为此,我们设计的解决方案均为轻量级,整体仅使总参数量增加5%。其次,冷启动物品仅由非历史特征(如内容或属性特征)表示,而模型往往忽视这些特征的重要性。为提升其显著性,我们引入了针对非历史特征的残差连接机制。第三,与非冷启动物品相比,冷启动物品往往获得较低的预测分数,从而降低了其被展示的概率。我们通过在模型中加入分数正则化项来缓解此问题。第四,冷启动物品的标注数据稀疏,导致模型难以从中有效学习。我们应用流形混合技术来解决数据稀疏性问题。这些方法在Pinterest平台集成实施后,使新鲜内容的用户参与度提升了10%,且未对整体参与度与成本产生负面影响,目前已部署服务于Pinterest超过5.7亿用户。

0
下载
关闭预览

相关内容

冷启动关注的是产品早期获取早期核心用户,以及如何运营的问题。
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
AutoML研究综述:让AI学习设计AI
机器之心
15+阅读 · 2019年5月7日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员