迁移学习在新闻推荐中的应用

2020 年 8 月 22 日 DataFunTalk



文章作者:杨强、张宇、戴文渊、潘嘉林 等

内容来源:《迁移学习》


导读: 新闻推荐已经成为移动设备中的一项重要服务,其目的是让大多数用户知道世界上发生了什么。在本文中,我们将重点介绍向新用户推荐最新的新闻文章。我们假设用户在某个新闻推荐服务中首次注册,并且以前没有读过任何新闻文章。此任务与新用户冷启动挑战和新物品 ( 即新闻文章 ) 冷启动挑战相关,因此称为双冷启动推荐 (  Dual Cold-Start Recommendation, DCSR )。
对于双冷启动推荐问题,现有的新闻推荐方法 (  Das等人,2007; Liu等人,2010a ) 不适用,因为这些方法依赖用户的历史阅读行为和新闻文章的内容信息,这些信息在双冷启动推荐问题中不可用。
可以从迁移学习的角度来解决双冷启动推荐问题。尽管在新闻领域中没有关于冷启动用户和冷启动物品的用户行为,但也可能存在其他相关领域的用户行为。具体来说,我们利用了相关领域 ( 即应用程序 (  APP ) 领域 ) 的一些知识,其中用户的应用程序安装行为在该领域可用。 新闻领域的大多数冷启动用户已经安装了一些应用程序,而这些信息可能有助于确定用户对新闻文章的偏好。 特别地,我们假设具有类似应用程序安装行为的用户可能对新闻文章有类似的兴趣。 有了这个假设,应用程序域中的邻域信息就可以作为知识来迁移到新闻文章的目标域。  

01

问题定义

在新闻推荐问题中有两个领域: 一个是应用程序领域,作为源域; 另一个是新闻领域,作为目标域。
在应用程序领域中有一个三元组,即 ( u,g,G ug   ),表示用户u已经安装了属于类型g的移动应用程序G ug 次。然后,应用程序领域的数据可以表示为用户类型矩阵G,如图所示。

针对双冷启动推荐问题的NTL方法

在新闻领域,有一个用户物品矩阵 R 来表示用户是否读过某物品。每个物品i与一个一级类别c 1 (i)∈l 1 和一个二级类别c 2 (i)∈l 2 相关。因此有一个四元组集合,即 ( u,i,c 1 (i),c 2 (i) ),表示用户u已读过属于c 1 (i)和c 2 (i)的物品i。在预处理之后,可以得到一个用户类别矩阵C,其中每个条目表示属于某个用户已读类别的物品数。
该问题的目标是向以前没有阅读过任何物品的新用户推荐新物品 ( 即最新的新闻文章 ) 的排序列表。 注意,在双冷启动推荐设置下,我们只使用物品的类别信息,而不使用内容信息。
02
挑战和解决方案
双冷启动推荐问题的主要难点是缺乏针对新用户和新物品的历史偏好数据。 也就是说,我们面临的新用户冷启动的挑战在于,我们将为其提供推荐的目标用户是以前没有阅读过任何物品的; 面临的新物品冷启动的挑战在于,我们将向目标用户推荐的目标物品对于所有用户来说都是全新的。 在这种挑战下,大多数现有的推荐算法都不适用。
为了解决双冷启动推荐问题中的两个挑战,我们对应用程序领域和新闻领域进行了偏好假设,即两个领域中的邻域结构相似。我们引入了一种基于邻域的迁移学习 (  Neighborhood-based Transfer Learning, NTL ) 方法,它可以将邻域知识从应用程序领域迁移到新闻领域,从而解决新用户的冷启动挑战。 针对新物品冷启动挑战,我们设计了一种类别级偏好来取代传统的物品级偏好,因为后者不适用于DCSR问题中的新物品。 通过利用上述两种方法来解决这两个挑战,一些经过全面研究的基于邻域的推荐方法将适用于双冷启动推荐问题。
03

基于邻域的迁移学习

在大多数推荐方法中,用户用户 ( 或物品物品 ) 相似性是一个核心概念,因为邻域的构建可以用于志同道合的用户的偏好聚合,然后用于目标用户的偏好预测。用户u对物品i的偏好预测公式的数学形式 (  1 ) 
其中,N u 表示用户u的一组最近邻,用余弦相似度等进行度量。 r^ u',i 表示用户u'对物品i的偏好估计。取平均分 r^ u,i 作为用户u对物品i的偏好,它将用于物品的排序和k项最佳推荐。
对于双冷启动推荐问题,我们无法仅使用来自新闻领域的数据在测试数据中的冷启动用户和训练数据中的热启动用户之间建立关联。 NTL方法的主要思想是利用应用程序领域中用户之间的相关性,并假定具有类似应用程序安装行为的用户在新闻领域中可能相似。 例如,两个已安装了相同类型应用程序 ( 如商业 ) 的用户可能都喜欢有关财务主题的新闻文章。
在该偏好假设下,我们首先计算在应用程序领域中冷启动用户 u和热启动用户u'之间的相似度:
其中G u· 是用户类型矩阵G中关于用户u的行向量。一旦我们计算了余弦相似度,则对于每个冷启动用户u,我们首先删除具有较小相似度值的用户 ( 例如S u,u' <0.1 ),然后取最相似的用户来构造邻域N u
对于式 ( 1 ) 中的物品级偏好 r^ u',i ,我们无法直接获得其分数,因为物品i对于所有用户来说都是新的,包括热启动用户和目标冷启动用户u'。我们可以通过一个类别级偏好来近似物品级偏好:
其中 c(i) 是一级或二级类别。共有两种类别级的偏好:
其中,N u',c 1 (i) 和N u', c2(i) 分别表示 ( 用户u' ) 属于一级类别c 1 (i)和二级类别c 2 (i)的物品数量。
最后, 利用上述各式, 可以将式 ( 1 ) 改写为
这将用于偏好预测。具体来说,近邻N u 帮助解决新用户冷启动挑战,而类别级别偏好 N u',c 1 (i) N u', c2(i) 解决新物品冷启动挑战。

本次的分享就到这里,谢谢大家。

——本文摘自机械工业出版社华章图书《迁移学习》,相关参考文献请参见原书。


在文末分享、点赞、在看,给个三连击呗~~


03
赠书活动

《迁移学习》由杨强教授领衔撰写,是研究团队十余年艰苦研究工作的积累。张钹院士倾情作序,邓力、高文、李开复、周志华(按姓氏拼音排序)联袂推荐。本书也是全球首本迁移学习中文专著!
福利时间:本期活动为大家带来5本正版新书。在文末留言区留言谈谈你对迁移学习的看法,2020年8月27日20点前,我们将在评论点赞超过5的留言中选取5个最有意思的评论,赠送正版图书1本。赠书由机械工业出版社华章公司提供,在此表示感谢。注:等不及的小伙伴也可以点击下面的购买按钮直接拿下哦。
社群推荐:

欢迎加入 DataFunTalk 算法交流群,跟同行零距离交流。如想进群,请识别下面的二维码,根据提示自主入群。

文章推荐:
模型独立学习:多任务学习与迁移学习

关于我们:

DataFunTalk 专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100场线下沙龙、论坛及峰会,已邀请近500位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章300+,百万+阅读,7万+精准粉丝。

🧐分享、点赞、在看,给个三连击呗!👇 

登录查看更多
3

相关内容

最新《深度强化学习中的迁移学习》综述论文
专知会员服务
156+阅读 · 2020年9月20日
【教程】自然语言处理中的迁移学习原理,41 页PPT
专知会员服务
96+阅读 · 2020年2月8日
专知会员服务
88+阅读 · 2020年1月20日
NLP领域中的迁移学习现状
AI科技评论
7+阅读 · 2019年9月1日
深度 | 推荐系统如何冷启动?
AI100
17+阅读 · 2019年4月7日
预训练模型迁移学习
极市平台
11+阅读 · 2018年11月6日
领域应用 | 如何将知识图谱特征学习应用到推荐系统?
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
推荐系统机器学习算法概览
论智
7+阅读 · 2017年12月14日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
5+阅读 · 2019年10月11日
Arxiv
3+阅读 · 2018年12月21日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关资讯
NLP领域中的迁移学习现状
AI科技评论
7+阅读 · 2019年9月1日
深度 | 推荐系统如何冷启动?
AI100
17+阅读 · 2019年4月7日
预训练模型迁移学习
极市平台
11+阅读 · 2018年11月6日
领域应用 | 如何将知识图谱特征学习应用到推荐系统?
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
推荐系统机器学习算法概览
论智
7+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员