【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路

2021 年 12 月 4 日 专知



强化学习(Reinforcement learning, RL)已经在真实世界的推荐系统中被广为验证。然而,基于强化学习的推荐算法常常会带来巨大的内存和时间成本。知识蒸馏(Knowledge distillation, KD)则是一种常见的有效压缩模型同时尽量保持模型有效性的方法。但是,推荐中的强化学习模型往往需要在极度稀疏的用户-物品空间中进行大规模的探索(RL exploration),而这增加了强化学习推荐模型进行蒸馏的难度。


在强化学习蒸馏中,老师(teacher)需要教给学生(student)哪些课程(例如老师对于有标签/无标签的user-item对的评分),以及学生需要从老师的课程中学习多少(即每个蒸馏样例的学习权重),需要被精细地规划和设计。在这个工作中,我们提出了一个全新的蒸馏强化学习推荐模型(Distilled reinforcement learning framework for recommendation, DRL-Rec),希望能够在压缩模型的基础上保持(甚至提升)模型的效果。


具体地,我们在模型蒸馏前加入一个探索/过滤模块(Exploring and filtering module),从老师和学生两个角度判断蒸馏中什么样的信息应该从老师传给学生。我们还提出一个置信度引导的蒸馏(Confidence-guided distillation),在list-wise KL divergence loss和Hint loss两种蒸馏目标学习中加入置信度的权值,以指导学生从老师更加擅长的课程中学习更多。目前,DRL-Rec已经部署于看一看推荐系统,服务千万用户。


论文链接:

https://dl.acm.org/doi/abs/10.1145/3459637.3481917



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DRLRE” 就可以获取《【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
4

相关内容

专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
27+阅读 · 2021年6月18日
专知会员服务
24+阅读 · 2021年6月17日
专知会员服务
41+阅读 · 2021年3月21日
【WWW2021】兴趣感知消息传递图卷积神经网络的推荐
专知会员服务
44+阅读 · 2021年2月23日
专知会员服务
22+阅读 · 2020年9月8日
【SIGIR 2020】 基于协同注意力机制的知识增强推荐模型
专知会员服务
89+阅读 · 2020年7月23日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知
5+阅读 · 2020年6月25日
注意力图神经网络的多标签文本分类
专知
8+阅读 · 2020年3月28日
Arxiv
19+阅读 · 2021年1月14日
Arxiv
9+阅读 · 2018年1月30日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
27+阅读 · 2021年6月18日
专知会员服务
24+阅读 · 2021年6月17日
专知会员服务
41+阅读 · 2021年3月21日
【WWW2021】兴趣感知消息传递图卷积神经网络的推荐
专知会员服务
44+阅读 · 2021年2月23日
专知会员服务
22+阅读 · 2020年9月8日
【SIGIR 2020】 基于协同注意力机制的知识增强推荐模型
专知会员服务
89+阅读 · 2020年7月23日
Top
微信扫码咨询专知VIP会员