Applying large pre-trained Vision-Language Models to recommendation is a burgeoning field, a direction we term Vision-Language-Recommendation (VLR). Bringing VLR to user-oriented on-device intelligence within a federated learning framework is a crucial step for enhancing user privacy and delivering personalized experiences. This paper introduces FedVLR, a federated VLR framework specially designed for user-specific personalized fusion of vision-language representations. At its core is a novel bi-level fusion mechanism: The server-side multi-view fusion module first generates a diverse set of pre-fused multimodal views. Subsequently, each client employs a user-specific mixture-of-expert mechanism to adaptively integrate these views based on individual user interaction history. This designed lightweight personalized fusion module provides an efficient solution to implement a federated VLR system. The effectiveness of our proposed FedVLR has been validated on seven benchmark datasets.


翻译:将大规模预训练的视觉-语言模型应用于推荐系统是一个新兴的研究领域,我们将其称为视觉-语言-推荐(VLR)。在联邦学习框架下将VLR技术应用于面向用户的设备端智能,是增强用户隐私保护和提供个性化体验的关键步骤。本文提出了FedVLR,这是一个专门为用户特定个性化融合视觉-语言表示而设计的联邦VLR框架。其核心是一种新颖的双层融合机制:服务器端多视图融合模块首先生成一组多样化的预融合多模态视图;随后,每个客户端采用用户特定的专家混合机制,根据个体用户交互历史自适应地整合这些视图。这种设计的轻量级个性化融合模块为实现联邦VLR系统提供了高效解决方案。我们在七个基准数据集上验证了所提出的FedVLR的有效性。

0
下载
关闭预览

相关内容

国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员