推荐系统的数据稀疏性是一个固有的挑战,因为推荐系统的大部分数据都来自于用户的隐式反馈。这就带来了两个困难:

一是大部分用户与系统的交互很少,没有足够的数据进行学习;

二是隐式反馈中不存在负样本。通常采用负样本的方法来产生负样本。

然而,这导致了许多潜在的正样本被误标记为负样本,数据的稀疏性会加剧误标记问题。这是容易解释的,因为:用户购买了某一商品,你可以说他喜欢这一商品;但是用户如果没有买的那些商品,你没有办法说他就不喜欢。为了解决这些困难,作者没有像其他的做法一样,而是将稀疏隐式反馈的推荐问题作为半监督学习任务,并探索领域适应(Domain Adaptation)来解决这个问题。具体地,是将从密集数据中学习到的知识转移到稀疏数据中,并专注于最具挑战性的没有用户或项目重叠的情况。

在这种极端情况下,直接对齐两个数据集的嵌入并不理想,因为这两个潜在空间编码的信息非常不同。因此,作者采用领域不变(domain-invariant)的文本特性作为锚点来对齐潜在空间。为了对齐嵌入,我们为每个用户和项提取文本特性,并将它们与用户和物品的嵌入一起提供给域分类器。训练嵌入来迷惑分类器,并将文本特征固定为锚点。通过域适应,将源域内的分布模式转移到目标域。由于目标部分可以通过区域自适应来监督,因此我们在目标数据集中放弃了负采样以避免标签噪声。

成为VIP会员查看完整内容
19

相关内容

半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。
专知会员服务
37+阅读 · 2020年11月24日
【KDD2020】 解决基于图神经网络的会话推荐中的信息损失
专知会员服务
31+阅读 · 2020年10月29日
【KDD2020】 鲁棒的跨语言知识图谱实体对齐
专知会员服务
26+阅读 · 2020年9月10日
【ACMMM2020-北航】协作双路径度量的小样本学习
专知会员服务
28+阅读 · 2020年8月11日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
61+阅读 · 2020年5月25日
专知会员服务
87+阅读 · 2020年1月20日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
【基于元学习的推荐系统】5篇相关论文
专知
11+阅读 · 2020年1月20日
迁移自适应学习最新综述,附21页论文下载
学界 | 综述论文:四大类深度迁移学习
机器之心
16+阅读 · 2018年9月15日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
学习 | Word2Vec的迁移实践:Tag2Vec
菜鸟的机器学习
5+阅读 · 2018年3月29日
推荐系统机器学习算法概览
论智
7+阅读 · 2017年12月14日
Arxiv
0+阅读 · 2020年12月1日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
VIP会员
相关VIP内容
专知会员服务
37+阅读 · 2020年11月24日
【KDD2020】 解决基于图神经网络的会话推荐中的信息损失
专知会员服务
31+阅读 · 2020年10月29日
【KDD2020】 鲁棒的跨语言知识图谱实体对齐
专知会员服务
26+阅读 · 2020年9月10日
【ACMMM2020-北航】协作双路径度量的小样本学习
专知会员服务
28+阅读 · 2020年8月11日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
61+阅读 · 2020年5月25日
专知会员服务
87+阅读 · 2020年1月20日
相关资讯
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
【基于元学习的推荐系统】5篇相关论文
专知
11+阅读 · 2020年1月20日
迁移自适应学习最新综述,附21页论文下载
学界 | 综述论文:四大类深度迁移学习
机器之心
16+阅读 · 2018年9月15日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
学习 | Word2Vec的迁移实践:Tag2Vec
菜鸟的机器学习
5+阅读 · 2018年3月29日
推荐系统机器学习算法概览
论智
7+阅读 · 2017年12月14日
微信扫码咨询专知VIP会员