【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路 - 专知

会员服务 ·

0

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

2021 年 12 月 4 日 专知

强化学习（Reinforcement learning, RL）已经在真实世界的推荐系统中被广为验证。然而，基于强化学习的推荐算法常常会带来巨大的内存和时间成本。知识蒸馏（Knowledge distillation, KD）则是一种常见的有效压缩模型同时尽量保持模型有效性的方法。但是，推荐中的强化学习模型往往需要在极度稀疏的用户-物品空间中进行大规模的探索（RL exploration），而这增加了强化学习推荐模型进行蒸馏的难度。

在强化学习蒸馏中，老师（teacher）需要教给学生（student）哪些课程（例如老师对于有标签/无标签的user-item对的评分），以及学生需要从老师的课程中学习多少（即每个蒸馏样例的学习权重），需要被精细地规划和设计。在这个工作中，我们提出了一个全新的蒸馏强化学习推荐模型（Distilled reinforcement learning framework for recommendation, DRL-Rec），希望能够在压缩模型的基础上保持（甚至提升）模型的效果。

具体地，我们在模型蒸馏前加入一个探索/过滤模块（Exploring and filtering module），从老师和学生两个角度判断蒸馏中什么样的信息应该从老师传给学生。我们还提出一个置信度引导的蒸馏（Confidence-guided distillation），在list-wise KL divergence loss和Hint loss两种蒸馏目标学习中加入置信度的权值，以指导学生从老师更加擅长的课程中学习更多。目前，DRL-Rec已经部署于看一看推荐系统，服务千万用户。

论文链接：

https://dl.acm.org/doi/abs/10.1145/3459637.3481917

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DRLRE” 就可以获取《【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

4

相关内容

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

专知会员服务

22+阅读 · 2021年12月12日

【ICML2021】逆约束强化学习

专知会员服务

31+阅读 · 2021年9月7日

【KDD2021】拓扑蒸馏推荐系统

专知会员服务

26+阅读 · 2021年6月18日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

24+阅读 · 2021年6月17日

IPM2020 | 长短期兴趣建模的图神经网络新闻推荐系统

专知会员服务

41+阅读 · 2021年3月21日

WWW2021 | 图神经网络的知识提取与超越：一个有效的知识蒸馏框架

WWW2021 | 图神经网络的知识提取与超越：一个有效的知识蒸馏框架

专知会员服务

64+阅读 · 2021年3月10日

【WWW2021】兴趣感知消息传递图卷积神经网络的推荐

【WWW2021】兴趣感知消息传递图卷积神经网络的推荐

专知会员服务

44+阅读 · 2021年2月23日

【KDD2020-Google】神经输入搜索的大规模深度推荐模型

专知会员服务

22+阅读 · 2020年9月8日

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

专知会员服务

88+阅读 · 2020年7月23日

【KDD2020】AutoFIS: 因数分解模型中用于预测点击率的自动特征交互选择

专知会员服务

11+阅读 · 2020年5月27日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知

8+阅读 · 2021年2月6日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知

5+阅读 · 2020年6月25日

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

PaperWeekly

5+阅读 · 2020年6月8日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知

8+阅读 · 2020年3月28日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

10+阅读 · 2020年3月17日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【RecSys2018】130页序列推荐系统教程重磅发布（附论文、代码、PPT）

【RecSys2018】130页序列推荐系统教程重磅发布（附论文、代码、PPT）

专知

43+阅读 · 2018年10月4日

Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning Approach

Arxiv

0+阅读 · 2022年2月2日

Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization

Arxiv

12+阅读 · 2021年12月20日

Adversarial Attacks Against Deep Generative Models on Data: A Survey

Arxiv

6+阅读 · 2021年12月1日

Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Arxiv

6+阅读 · 2021年9月15日

Settling the Variance of Multi-Agent Policy Gradients

Arxiv

8+阅读 · 2021年8月20日

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

Arxiv

7+阅读 · 2021年6月22日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

PANDA: Predicting the change in proteins binding affinity upon mutations using sequence information

PANDA: Predicting the change in proteins binding affinity upon mutations using sequence information

Arxiv

5+阅读 · 2020年9月16日

Controllable Multi-Interest Framework for Recommendation

Arxiv

18+阅读 · 2020年8月3日

Collaborative Autoencoder for Recommender Systems

Arxiv

9+阅读 · 2018年1月30日

VIP会员

相关主题

相关VIP内容

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

【AAAI2022】基于秩模仿和预测引导特征模仿的目标检测知识蒸馏

专知会员服务

22+阅读 · 2021年12月12日

【ICML2021】逆约束强化学习

专知会员服务

31+阅读 · 2021年9月7日

【KDD2021】拓扑蒸馏推荐系统

专知会员服务

26+阅读 · 2021年6月18日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

24+阅读 · 2021年6月17日

IPM2020 | 长短期兴趣建模的图神经网络新闻推荐系统

专知会员服务

41+阅读 · 2021年3月21日

WWW2021 | 图神经网络的知识提取与超越：一个有效的知识蒸馏框架

WWW2021 | 图神经网络的知识提取与超越：一个有效的知识蒸馏框架

专知会员服务

64+阅读 · 2021年3月10日

【WWW2021】兴趣感知消息传递图卷积神经网络的推荐

【WWW2021】兴趣感知消息传递图卷积神经网络的推荐

专知会员服务

44+阅读 · 2021年2月23日

【KDD2020-Google】神经输入搜索的大规模深度推荐模型

专知会员服务

22+阅读 · 2020年9月8日

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

专知会员服务

88+阅读 · 2020年7月23日

【KDD2020】AutoFIS: 因数分解模型中用于预测点击率的自动特征交互选择

专知会员服务

11+阅读 · 2020年5月27日

热门VIP内容

相关资讯

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知

8+阅读 · 2021年2月6日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知

5+阅读 · 2020年6月25日

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

PaperWeekly

5+阅读 · 2020年6月8日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知

8+阅读 · 2020年3月28日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

10+阅读 · 2020年3月17日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【RecSys2018】130页序列推荐系统教程重磅发布（附论文、代码、PPT）

【RecSys2018】130页序列推荐系统教程重磅发布（附论文、代码、PPT）

专知

43+阅读 · 2018年10月4日

相关论文

Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning Approach

Arxiv

0+阅读 · 2022年2月2日

Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization

Arxiv

12+阅读 · 2021年12月20日

Adversarial Attacks Against Deep Generative Models on Data: A Survey

Arxiv

6+阅读 · 2021年12月1日

Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Arxiv

6+阅读 · 2021年9月15日

Settling the Variance of Multi-Agent Policy Gradients

Arxiv

8+阅读 · 2021年8月20日

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

Arxiv

7+阅读 · 2021年6月22日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

PANDA: Predicting the change in proteins binding affinity upon mutations using sequence information

PANDA: Predicting the change in proteins binding affinity upon mutations using sequence information

Arxiv

5+阅读 · 2020年9月16日

Controllable Multi-Interest Framework for Recommendation

Arxiv

18+阅读 · 2020年8月3日

Collaborative Autoencoder for Recommender Systems

Arxiv

9+阅读 · 2018年1月30日

大家都在搜

图与推荐指南针

精益管理体系

基于大型语言模型

生成式人工智能

李清照词作

性别年龄戴眼镜识别论文

微信扫码咨询专知VIP会员