Large Language Models (LLMs) have demonstrated remarkable capabilities in reasoning, generalization, and simulating human-like behavior across a wide range of tasks. These strengths present new opportunities to enhance traditional recommendation systems (RS), especially in the cold-start item scenario where newly introduced items lack interactions. Existing works have used LLMs to address cold-start issues in traditional RS through data augmentation, but they have limitations. One recent work directly addresses this issue by prompting LLMs to generate augmented interaction data between randomly sampled users and cold-start items. Then, they train the traditional RS with augmented data, incorporating collaborative signals for cold-start items. Although they use LLMs to provide cold-start items with feedback, they use partial user histories, which does not allow the LLM to fully emulate the user. Furthermore, randomly selecting users is not optimal for augmentation. To address these challenges, we leverage the LLM as a user and develop a reinforcement learning (RL) framework that trains a policy to select users for augmentation, optimizing for cold-start item performance after augmented training. The policy model learns to select users for cold-start item data augmentation based on their behavioral features and histories. To optimize user selection for cold-start item performance, we employ a policy gradient method that updates the policy in the direction of actions that lead to high rewards. Experiments on Amazon Product Review datasets show substantial gains in cold-start item recall, demonstrating the effectiveness of our method as a scalable, serving-efficient augmentation strategy for modern RS.


翻译:大型语言模型(LLMs)在推理、泛化和模拟人类行为方面展现出卓越能力,为增强传统推荐系统(RS)提供了新机遇,尤其是在冷启动物品场景下,新引入的物品缺乏交互数据。现有研究通过数据增强利用LLMs解决传统RS中的冷启动问题,但存在局限。近期一项工作直接通过提示LLMs生成随机采样用户与冷启动物品之间的增强交互数据来应对此问题,随后利用增强数据训练传统RS,为冷启动物品融入协同信号。尽管他们使用LLMs为冷启动物品提供反馈,但仅采用部分用户历史,导致LLM无法完全模拟用户行为,且随机选择用户并非最优增强策略。为解决这些挑战,我们将LLM视为用户,开发了一个强化学习(RL)框架,训练策略模型以选择用户进行数据增强,优化冷启动物品在增强训练后的性能。该策略模型基于用户行为特征和历史记录学习选择用户进行冷启动物品数据增强。为优化冷启动物品性能的用户选择,我们采用策略梯度方法,沿高奖励动作方向更新策略。在亚马逊产品评论数据集上的实验显示,冷启动物品召回率显著提升,证明了本方法作为现代RS可扩展、服务高效增强策略的有效性。

0
下载
关闭预览

相关内容

冷启动关注的是产品早期获取早期核心用户,以及如何运营的问题。
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
教程 | PyTorch经验指南:技巧与陷阱
机器之心
16+阅读 · 2018年7月30日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
495+阅读 · 2023年3月31日
VIP会员
相关资讯
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
教程 | PyTorch经验指南:技巧与陷阱
机器之心
16+阅读 · 2018年7月30日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员