让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

2020 年 6 月 8 日 PaperWeekly

‍

‍时序推荐是基于用户的顺序行为，对未来的行为进行预测的任务。目前的工作利用深度学习技术的优势，取得了很好的效果。但是这些工作仅专注于所推荐商品的局部收益，并未考虑该商品对于序列长期的影响。

强化学习（RL）通过最大化长期回报为这一问题提供了一个可能的解决方案。但是，在时推荐场景中，用户与商品交互的稀疏性，动态性增加了强化学习的随机探索的难度，使得模型不能很好地收敛。

近年来，知识图谱被广泛地用于推荐系统，但是这些工作往往忽略了知识对于探索过程的指导，从而使得RL模型不能很好地解决时序推荐任务中用户偏好的漂移。

针对以上问题，北京邮电大学的王鹏飞老师课题组同中国人民大学的赵鑫课题组首次探讨了将强化学习技术应用在时序推荐任务上的可能性。提出了一种知识引导的强化学习模型，将知识图信息融合到 RL 框架进行序列推荐。他们的研究成果 KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation 发表在 2020 年的 SIGIR 会议上。

论文标题：KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation

论文来源：SIGIR 2020

论文链接：https://arxiv.org/abs/2004.08068

框架模型

我们将时序商品推荐问题定义为一个马尔可夫决策过程 (MDP)，并在此框架中进行了三个主要的技术扩展将知识同 RL 框架进行融合，指导探索和重复的学习过程。具体包括知识增强的状态表示方法、引入知识的奖励机制，以及基于截断策略的学习机制。 我们将模型命名为 Knowledge-guidEd Reinforcement Learning model (KERL)，论文模型图如下所示：

融合知识的状态表示方法

我们通过融合知识的信息来加强状态向量的表达能力。但是在购物场景中，用户的偏好是动态变化的，这在强化学习探索长序列过程中更加明显，仅依据历史序列的知识不能充分的指导强化学习的探索过程。为此，我们创造性的将知识分成了两部分具体设计方式如下：

其中表示时序信息，表示历史知识，表示未来知识。具体对于，我们构造了一个推断网络来利用建模历史知识与未来知识的关联性，并最终将三部分信息进行融合，构造状态的向量表达：

融合知识与序列的复合奖励函数

对于激励函数我们同时考虑了推荐商品时序和知识的准确性，以此来增强对于探索过程的指导。具体的，对于时序角度的激励函数，我们机器翻译评估工作的启发，通过 BLEU 指标，评估预测序列和真实序列之间单个商品，以及子序列片断的相似性：

公式中为修整过的 m 单位片段精确度。

其中是的子序列，是在中出现的次数。对于知识角度的激励函数，我们用余弦函数测量预测序列和真实序列之间知识的语义相似性：

最后我们将二者累加，作为最后的激励函数：

模型的学习算法

给定预训练好的知识表达，我们目的是学习一个策略，使得累积奖励最大化：

我们采用了一种截断式的 policy gradient 策略来对目标函数进行优化，对于用户的每个状态，随机采样条长度为 k 的子序列，进行梯度更新：

其中表示子序的第 t 个商品。

在 KERL 中我们通过设计一个推断网络来建模历史知识和未来知识的关联。但是训练数据的稀疏性使得该网络不能很好地收敛。考虑到 KERL 通过 policy gradient 策略采样了一系列子序列进行模型的学习，我们试图引入这些序列，通过构造一个排序模型学习推断网络。

具体的，我们先得到每一个序列的知识表达，记为

。给定两个子序列知识表达与，我们按照如下的规则构造键对：

对于每个状态，我们构造个键对推断网络进行学习，保证网络的鲁棒性。此外，这样的学习策略也充分利用了奖励函数，从而能更好的和强化学习吻合。

模型试验效果

考虑到我们的模型把 KG 的信息分别融合进了激励函数和状态表达之中，我们先通过剥离试验来具体的分析每一块的性能。

针对 RL 的状态表示，KERL 总共使用了三种不同的信息，分别是序列信息，历史知识，以及未来知识。我们首先分析一下不同的信息对于性能的影响，具体设计了三种基于不同状态表示 KERL 模型，包括，仅用时序的信息；，利用时序与历史知识信息；，利用时序与未来知识信息。我们将这三个模型同 KERL 进行比较，具体结果如图下所示：

从图上发现，仅利用时序信息进行状态表示的性能最差，这证明了融合知识提升预测性能的重要性。此外，尽管考虑的未来知识信息的性能有所提升，但整体上性能还是低于，而 KERL 同时考虑了以上三种信息，取得了最好的结果。

对于激励函数，我们分析了单独考虑时序相似性 ( ) 和知识相似性 ( ) 时对于模型性能的影响。下图展现了在 CD 数据集上模型的性能。

可以看出，在 Hit-Ratio 指标上性能优于，而在 NDCG 指标上优于 , 这是由于使用了BLEU来计算序列的得分，使得模型倾向将正确的商品排在前列，而从知识相似性的角度，倾向于召回正确的商品。而同时考虑到两种相似性的 KERL 在两个评价指标上均取得了最好的成绩。

我们在 next-item 和 next-session 两个任务上验证了模型的有效性，KERL 一致超过了所有的基线方法。

论文总结

该论文首次探讨了将强化学习应用于时序推荐任务的可行性，通过将该任务定义为 MDP 过程，赋予了时序预测模型捕获推荐商品长期收益的能力，并创造性地引入知识对强化学习的探索重复过程进行指导。文章在 next-item 和 next-session 两个推荐任务上验证了模型的有效性。

关于作者

王鹏飞，北京邮电大学计算机学院硕士生导师

2017年获得中科院计算技术研究所博士学位，现入北京邮电大学，任计算机学院的助理教授，硕士生导师。主要专注于研究用户行为的时序建模，文本分类等任务。近五年内在国内外著名学术期刊与会议上发表论文20余篇，在国际顶级会议（SIGIR、WSDM、CIKM等）以第一作者发表论文10余篇，并在并担任多个国际会议（如SIGIR，AAAI等）评审人。

范钰，北京邮电大学计算机学院硕士研究生

目前研究生在读，研究方向为推荐系统中用户行为的时序建模，图神经网络。已在SIGIR会议发表论文两篇。

夏龙，约克大学博士后研究员

2017年于中国科学院计算技术研究所获博士学位后，加入京东数据科学实验室担任资深研究员。研究兴趣包括数据挖掘，应用机器学习，信息检索和人工智能。在国际顶级会议期刊如KDD，SIGIR，TIST发表论文十余篇，并担任KDD，WWW，AAAI，WSDM等国际学术会议程序委员会委员。

赵鑫，中国人民大学信息学院副教授、博士生导师

博士师从北京大学李晓明教授，专注于研究面向文本内容的社交用户话题兴趣建模。近五年内在国内外著名学术期刊与会议上发表论文80余篇，其中包括ACM TOIS和SIGIR、IEEE TKDE和SIGKDD、ACL等。所发表的学术论文共计被引用3500余次。担任多个重要的国际会议或者期刊评审，入选第二届CCF青年人才发展计划。曾获得CIKM 2017最佳短文候选以及AIRS 2017最佳论文奖。

牛少彰，北京邮电大学计算机学院教授

2004年于北京邮电大学获得博士学位。作为主要研究人员参加了973项目、国家自然科学基金等项目，同时兼任中国电子学会高级会员，中国电子学会多媒体信息安全专家委员会委员等职务。现主要从事网络信息安全、网络攻防技术、信息内容安全、信息隐藏技术、数字权益管理技术、软件安全以及计算机取证技术方面的教学和科研工作。

Jimmy Huang，约克大学信息技术学院教授、博士生导师

博士毕业于伦敦大学。ACM杰出科学家，加拿大约克大学约克研究主席，英国计算机学会会员和皇家艺术学会会员。主要研究重点是信息检索，大数据及其在Web和医疗保健中的应用领域。在国际著名学术期刊与会议所发表的学术论文共计被引用20000余次。曾获得第32届欧洲信息检索会议最佳论文奖，作为研究创新部早期研究员获得首席卓越研究奖（2007-2012年）。2015年获LA＆PS杰出研究，学术创造力奖。