初学者系列：推荐系统Wide & Deep Learning详解

2019 年 8 月 24 日 专知

导读

在信息大爆炸的今天，推荐系统（Recommendation System, RS）用作克服这种信息过载的通用解决方案，旨在从压倒性的在线内容和服务(例如电影、新闻和产品)中找到一组相关项目以满足用户的个人兴趣。用于推荐系统的策略有很多种，本文主要介绍的是在2016年提出的用于Google Play进行APP推荐的Wide & Deep Learning模型。

核心思想

Wide & Deep Learning 模型的核心思想是结合广义线性模型的记忆能力（memorization）和深度前馈神经网络模型的泛化能力（generalization）。利用广义线性模型从历史数据中学习特征相关性，利用深度前馈神经网络揭示隐式特征之间的相互作用。在训练过程中同时优化 2 个模型的参数，从而达到整体模型的预测能力最优。

动机

逻辑回归的广义线性模型，模型简单并且可解释性强，因此被广泛应用在工业环境中的大规模在线推荐和排名系统中。模型通常使用one-hot编码训练二值化稀疏特征。基于嵌入（Embedding）的模型，例如分解机(FM)或深度神经网络（DNN），通过为每个query和项目特征学习低维密集嵌入向量，进一步推广到以前未见过的query-item特征对。然而，当基础query项目矩阵稀疏且高维时，例如具有特定偏好的用户或具有很少吸引力的小众项目，难以学习查询和项目的有效低维表示。在这种情况下，大多数query-item对之间应该是没有交互的，但是，密集嵌入（dense embeddings）将导致所有query-item对的非零预测，因此可能过度概括并产生不太相关的推荐。

tips：”query“为当用户访问app store的时候生成的许多用户和文本特征。

基于这些问题，提出了Wide & Deep learning模型，联合训练wide线性模型和深度神经网络模型，将memorization和generalization的优点结合起来。使用 wide线性模型（Wide Model）用于记忆，使用深度神经网络模型（Deep Model）用于归纳。

tips：Memorization是从历史数据中学习特征的共性或者相关性；Generalization为相关性的传递，发现历史数据中很少或者没有出现的新的特征组合，来提高推荐物品的多样性。

原理

Wide & Deep Learning模型分为Wide model与 Deep model两部分，wide部分学习一些明确的特征依赖关系，deep部分在特征嵌入向量的级联上采用MLP来揭示隐式特征之间的相互作用。

wide 模型

wide 模型是的广义线性模型，如图下图所示。

其中：

y是预测值；
x = [x1，x2，...，xd]是d维特征的向量（包括两部分）；
w = [w1，w2，...，wd]是模型权重，b是偏差。

输入x（特征集合）包括原始输入特征和转换特征。常选择交叉积转换特征（cross-product transformation）（简单的说就是逻辑与运算（AND）），其定义为：

交叉积：相当于“逻辑与”运算AND，AND{A,B}当且仅当"A=1且B=1“时，交叉特征才为1。如果第i个特征是第k个变换φk的一部分，则c_{ki}为1，否则为0。

Deep 模型

deep model 是深层前馈神经网络，如下图所示：

对于类别特征，原始输入是特征字符串（例如：“language=en”）每一个稀疏的高维类别特征首先被转换为低维且密集的实值向量，通常被称为嵌入向量（embedding vector）。嵌入向量随机初始化，然后最小化模型训练期间的损失函数。然后将这些低维密集嵌入矢量馈送到前向通道中的神经网络的隐藏层中。每个隐藏层执行以下计算：

其中：

l是层数
f是激活函数，通常是ReLUs
a^(l)，b^(l)和W^(l)是第l层的激活，偏差和模型权重。

联合训练

通过将Wide模块和Deep模块的对数加权输出作为预测值，然后送入逻辑损失函数中，用于联合训练。模型的联合训练通过反向传播将输出值的误差梯度通过最小批随机梯度同时传送给Wide和Deep模块。在实验中，作者使用FTRL算法作为wide模块的优化器，使用AdaGrad更新deep模块。

联合训练：两个模型是一起训练所有参数，两个模块只要互相补充对方不足。

对于逻辑回归问题，模型的预测是：

其中：

Y是二进制类别标签
σ（·）为sigmod函数
φ（x）是原始特征x的交叉积转换特征
b是偏置。
w_wide是所有wide模型权重
w_deep是最终激活层a_（lf）的权重

实践

该模型官方公布的源码中主要包括：census_dataset.py、wide_deep_run_loop.py以及census_main.py三部分。

census_dataset.py主要处理数据以及生成特征列；
wide_deep_run_loop.py主要定义训练以及评价；
census_main.py为主函数，主要定义模型并且进行训练。

官方给定的数据集为‘成人’数据集，即人口普查数据预测收入是否超过5万美元/年，数据集中各类属性值有连续值与离散值，属性列表为：

数据处理（census_dataset.py）

下载数据集，并对数据进行处理

构建特征列

特征列（feature columns）是用来将采集到的数据进行规范约束，从而得到可以进行tensorflow所支持的类型的特征。tensorflow的特征列构造由tensorflow.feature_column模块来提供，共九种不同的类型。

（图片来源于tf官方文档）

tf.feature_column.numeric_column：全部由数值型构成的，默认值为float32。
tf.feature_column.categorical_column_with_hash_bucket：计算输入的哈希值，然后使用模运算符将其置于其中一个 hash_bucket_size 类别。
tf.feature_column.categorical_column_with_vocabulary_list：根据明确的词汇表将每个字符串映射到一个整数（one—hot类型）。
tf.feature_column.bucketized_column：据数值范围将其值分为不同的类别（如：年龄<20，经过处理可表示为[1,0,0,0,0]）
tf.feature_column.crossed_column：将多个特征组合为一个特征，即论文中的交叉积特征转换（cross-product transformation）。
tf.feature_column.indicator_column：将每个类别视为one-hot矢量中的一个元素，其中匹配类别的值为 1，其余类别为 0
tf.feature_column.embedding_column：与indicator_column不同，经常为0-1之间的小数，而不是只有一个位置（例tf.feature_column.embedding_column（occupation, dimension=3），输出结果为[0.233,0.256,0.487]）