会员服务 ·

【知识图谱】如何将知识图谱特征学习应用到推荐系统？

2018 年 6 月 14 日 产业智能官

今天，我们将进一步为大家讲解将知识图谱特征学习引入到推荐系统的各种思路与实现方法。

将知识图谱作为辅助信息引入到推荐系统中可以有效地解决传统推荐系统存在的稀疏性和冷启动问题，近几年有很多研究人员在做相关的工作。目前，将知识图谱特征学习应用到推荐系统中主要通过三种方式——依次学习、联合学习、以及交替学习。

依次学习（one-by-one learning）。首先使用知识图谱特征学习得到实体向量和关系向量，然后将这些低维向量引入推荐系统，学习得到用户向量和物品向量；

联合学习（joint learning）。将知识图谱特征学习和推荐算法的目标函数结合，使用端到端（end-to-end）的方法进行联合学习；

交替学习（alternate learning）。将知识图谱特征学习和推荐算法视为两个分离但又相关的任务，使用多任务学习（multi-task learning）的框架进行交替学习。

依次学习

Deep Knowledge-Aware Network (DKN)

我们以新闻推荐[1]为例来介绍依次学习。如下图所示，新闻标题和正文中通常存在大量的实体，实体间的语义关系可以有效地扩展用户兴趣。然而这种语义关系难以被传统方法（话题模型、词向量）发掘。

为了将知识图谱引入特征学习，遵循依次学习的框架，我们首先需要提取知识图谱特征。该步骤的方法如下：

实体连接（entity linking）。即从文本中发现相关词汇，并与知识图谱中的实体进行匹配；
知识图谱构建。根据所有匹配到的实体，在原始的知识图谱中抽取子图。子图的大小会影响后续算法的运行时间和效果：越大的子图通常会学习到更好的特征，但是所需的运行时间越长；
知识图谱特征学习。使用知识图谱特征学习算法（如TransE等）进行学习得到实体和关系向量。

需要注意的是，为了更准确地刻画实体，我们额外地使用一个实体的上下文实体特征（contextual entity embeddings）。一个实体e的上下文实体是e的所有一跳邻居节点，e的上下文实体特征为e的所有上下文实体特征的平均值：

下图的绿色椭圆框内即为“Fight Club”的上下文实体。

得到实体特征后，我们的第二步是构建推荐模型，该模型是一个基于CNN和注意力机制的新闻推荐算法：

基于卷积神经网络的文本特征提取：将新闻标题的词向量（word embedding）、实体向量（entity embedding）和实体上下文向量（context embedding）作为多个通道（类似于图像中的红绿蓝三通道），在CNN的框架下进行融合；
基于注意力机制的用户历史兴趣融合：在判断用户对当前新闻的兴趣时，使用注意力网络（attention network）给用户历史记录分配不同的权重。

该模型在新闻推荐上取得了很好的效果：DKN取得了0.689的F1值和0.659的AUC值，并在p=0.1水平上比其它方法取得了显著的提升。

我们也可以通过注意力权重的可视化结果看出，注意力机制的引入对模型的最后输出产生了积极的影响。由于注意力机制的引入，DKN可以更好地将同类别的新闻联系起来，从而提高了最终的正确预测的数量：

依次学习的优势在于知识图谱特征学习模块和推荐系统模块相互独立。在真实场景中，特别是知识图谱很大的情况下，进行一次知识图谱特征学习的时间开销会很大，而一般而言，知识图谱远没有推荐模块更新地快。因此我们可以先通过一次训练得到实体和关系向量，以后每次推荐系统模块需要更新时都可以直接使用这些向量作为输入，而无需重新训练。

依次学习的缺点也正在于此：因为两个模块相互独立，所以无法做到端到端的训练。通常来说，知识图谱特征学习得到的向量会更适合于知识图谱内的任务，比如连接预测、实体分类等，并非完全适合特定的推荐任务。在缺乏推荐模块的监督信号的情况下，学习得到的实体向量是否真的对推荐任务有帮助，还需要通过进一步的实验来推断。

联合学习

联合学习的核心是将推荐算法和知识图谱特征学习的目标融合，并在一个端到端的优化目标中进行训练。我们以CKE[2]和Ripple Network[3]为例介绍联合学习。

Collaborative Knowledge base Embedding (CKE)

在推荐系统中存在着很多与知识图谱相关的信息，以电影推荐为例：

结构化知识（structural knowledge），例如导演、类别等；
图像知识（visual knowledge），例如海报、剧照等；
文本知识（textual knowledge），例如电影描述、影评等。

CKE是一个基于协同过滤和知识图谱特征学习的推荐系统：

CKE使用如下方式进行三种知识的学习：

结构化知识学习：TransR。TransR是一种基于距离的翻译模型，可以学习得到知识实体的向量表示；

文本知识学习：去噪自编码器。去噪自编码器可以学习得到文本的一种泛化能力较强的向量表示；

图像知识学习：卷积-反卷积自编码器。卷积-反卷积自编码器可以得到图像的一种泛化能力较强的向量表示。

我们将三种知识学习的目标函数与推荐系统中的协同过滤结合，得到如下的联合损失函数：

使用诸如随机梯度下降（SGD）的方法对上述损失函数进行训练，我们最终可以得到用户/物品向量，以及实体/关系向量。CKE在电影推荐和图书推荐上取得了很高的Recall值和MAP值：

Ripple Network

Ripple的中文翻译为“水波”，顾名思义，Ripple Network模拟了用户兴趣在知识图谱上的传播过程，整个过程类似于水波的传播：

一个用户的兴趣以其历史记录中的实体为中心，在知识图谱上向外逐层扩散；
一个用户的兴趣在知识图谱上的扩散过程中逐渐衰减。

下图展示了用户兴趣在知识图谱上扩散的过程。以一个用户看过的“Forrest Gump”为中心，用户的兴趣沿着关系边可以逐跳向外扩展，并在扩展过程中兴趣强度逐渐衰减。

下图展示了Ripple Network的模型。对于给定的用户u和物品v，我们将历史相关实体集合V中的所有实体进行相似度计算，并利用计算得到的权重值对V中实体在知识图谱中对应的尾节点进行加权求和。求和得到的结果可以视为v在u的一跳相关实体中的一个响应。该过程可以重复在u的二跳、三跳相关实体中进行，如此，v在知识图谱上便以V为中心逐层向外扩散。

最终得到的推荐算法和知识图谱特征学习的联合损失函数如下：

类似于CKE，我们在该损失函数上训练即可得到物品向量和实体向量。需要注意的是，Ripple Network中没有对用户直接使用向量进行刻画，而是用用户点击过的物品的向量集合作为其特征。Ripple Network在电影、图书和新闻的点击率预测上取得了非常好的效果：

我们将Ripple Network的计算结果可视化如下。可以看出，知识图谱连接了用户的历史兴趣和推荐结果，其中的若干条高分值的路径可以视为对推荐结果的解释：

联合学习的优劣势正好与依次学习相反。联合学习是一种端到端的训练方式，推荐系统模块的监督信号可以反馈到知识图谱特征学习中，这对于提高最终的性能是有利的。但是需要注意的是，两个模块在最终的目标函数中结合方式以及权重的分配都需要精细的实验才能确定。联合学习潜在的问题是训练开销较大，特别是一些使用到图算法的模型。

交替学习

Multi-task Learning for KG enhanced Recommendation (MKR)

推荐系统和知识图谱特征学习的交替学习类似于多任务学习的框架。该方法的出发点是推荐系统中的物品和知识图谱中的实体存在重合，因此两个任务之间存在相关性。将推荐系统和知识图谱特征学习视为两个分离但是相关的任务，采用多任务学习的框架，可以有如下优势：

两者的可用信息可以互补；
知识图谱特征学习任务可以帮助推荐系统摆脱局部极小值；
知识图谱特征学习任务可以防止推荐系统过拟合；
知识图谱特征学习任务可以提高推荐系统的泛化能力。

MKR[4]的模型框架如下，其中左侧是推荐任务，右侧是知识图谱特征学习任务。推荐部分使用用户和物品的特征表示作为输入，预测的点击概率作为输出。知识图谱特征学习部分使用一个三元组的头结点和关系表示作为输入，预测的尾节点表示作为输出。

由于推荐系统中的物品和知识图谱中的实体存在重合，所以两个任务并非相互独立。我们在两个任务中设计了交叉特征共享单元（cross-feature-sharing units）作为两者的连接纽带。

交叉特征共享单元是一个可以让两个任务交换信息的模块。由于物品向量和实体向量实际上是对同一个对象的两种描述，他们之间的信息交叉共享可以让两者都获得来自对方的额外信息，从而弥补了自身的信息稀疏性的不足。

MKR的整体损失函数如下：

在实际操作中，我们采用交替训练的方式：固定推荐系统模块的参数，训练知识图谱特征学习模块的参数；然后固定知识图谱特征学习模块的参数，训练推荐系统模块的参数：

MKR在电影、图书和新闻推荐上也取得了不错的效果，其F1@K指标在绝大多数情况下都超过了baseline方法：

交替学习是一种较为创新和前沿的思路，其中如何设计两个相关的任务以及两个任务如何关联起来都是值得研究的方向。从实际运用和时间开销上来说，交替学习是介于依次学习和联合学习中间的：训练好的知识图谱特征学习模块可以在下一次训练的时候继续使用（不像联合学习需要从零开始），但是依然要参与到训练过程中来（不像依次学习中可以直接使用实体向量）。

知识图谱作为推荐系统的一种新兴的辅助信息，近年来得到了研究人员的广泛关注。未来，知识图谱和时序模型的结合、知识图谱和基于强化学习的推荐系统的结合、以及知识图谱和其它辅助信息在推荐系统中的结合等相关问题仍然值得更多的研究。欢迎感兴趣的同学通过留言与我们互动沟通。

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。