WWW2022 | 推荐系统中的特征自动提取

2022 年 2 月 24 日 图与推荐

引言

特征质量对推荐系统的效果具有显著的影响，因此特征选择对设计推荐系统来说至关重要。现存的推荐模型聚焦于设计复杂的神经网络结构，但忽视了特征选择过程的设计。这些模型只是简单地将所有可以使用的特征字段一起输入到模型中，或者利用专家知识人为地选出重要的特征字段。前者容易引入对推荐效果无效甚至有害的特征字段，导致额外的模型参数，增加推断时间；而后者需要人类专家的指导以及大量的人力，因此在实现上存在一定困难。

为此，我们提出了一个自动化机器学习框架AutoField，可以自动选择关键的特征字段。具体而言，我们首先设计了一个可微分的控制器网络，能够自动地调节每个字段被选中的概率。在此之后，只有被选中的特征字段会被输入到后续的推荐系统中，进行模型的重训练。三个数据集上的实验证实了我们模型的有效性，同时，我们也对模型的移植性 (transferability)，关键模块以及参数敏感性进行了研究。

本工作由香港城市大学、中国科学技术大学和腾讯公司联合完成。相关成果已被中国计算机学会推荐A类国际会议The Web Conference 2022录用，论文信息如下：

论文标题：AutoField: Automating Feature Selection in Deep Recommender Systems

会议名称：The Web Conference 2022

论文作者：Yejing Wang, Xiangyu Zhao, Tong Xu, Xian Wu

技术细节

模型整体框架

首先介绍AutoField的整体框架。AutoField有两个阶段，分别为搜索阶段和重训练阶段。具体而言，我们在搜索阶段中更新控制器网络的参数，在重训练阶段中基于训练完的控制器网络选择最优的特征字段组合，并将其输入到后续的深度推荐模型中进行重训练。进而，在搜索阶段中，我们首先初始化模型参数，然后将所有特征字段表征化后输入特征选择模块。特征选择模块通过一种基于控制器参数的可微分特征选择行为给出处理后的表征（图中1），衔接控制器网络和搜索阶段的深度推荐模型。此后，深度推荐模型给出训练集中用户偏好的预测，并基于预测的误差更新深度推荐模型的参数（图中2）。同时，控制器网络的参数根据深度推荐模型在验证集上的误差被优化（图中3）。搜索阶段完成后，我们得到训练完的控制器参数。根据这些参数，特征选择模块在重训练阶段给出被选中的特征字段（图中4），根据这些字段对最终的深度推荐模型进行重训练（图中5）。

接下来，我们将分别介绍深度推荐模型，控制器网络，优化方法以及重训练。

深度推荐模型

在搜索阶段中使用的推荐模型为表征层（Embedding Layer）以及多层感知机层（MLP）。在重训练阶段，由于AutoField给出的特征选择结果具有良好的移植性，可以把深度学习模型设置为其他热门模型，如DeepFM。

控制器网络

对于一个有 $N$ 个特征字段的数据集，每一个字段有两种选择：使用或者不使用。因此，整个搜索空间的大小为 $2^N$ 。面对如此巨大的搜索空间，我们无法使用对每一个结果编码的方式来定义。受DARTS的启发，我们将搜索空间定义为一个有向完全图，如图。具体来说，我们用 $N$ 个平行的节点表示所有的特征字段，每个节点是一个包含两个参数的二维向量 $(a^1_n, a^0_n)$ ，分别表示被选中和被放弃的概率。

如图中（a）所示，我们首先初始化控制器网络的参数，将每个字段的两个参数设置均为0.5 (图中线的粗细表示对应参数的大小，实线表示被选中，虚线表示被放弃)。如图（b）所示，随着搜索阶段的进行，更有用的特征字段对应的 $a^1_n$ 增大， $a^0_n$ 减小（实线变粗，虚线变细，如Field1，Field3）；无效的特征字段对应的 $a^1_n$ 减小， $a^0_n$ 增大（如Field2）。最终如图（c）所示， $a^1_n$ 更大的特征字段将被选中。

特征选择模块

在搜索阶段中，为了保持整个模型框架的可导性，根据控制器参数 $(a^1_n, a^0_n)$ ，我们可以用数学期望来定义特征选择行为：

其中， $e_n$ 为第n个字段对应的表征， $\textbf{0}, \textbf{1}$ 分别表示全0，全1的向量，维度和字段表征相同， $e^{'}_n$ 为特征选择后的表征。

然而，这样的定义无法很好的模拟真实环境中进行特征选择的结果（使用，不适用分别对应1，0的权重）。因此，在我们的工作中使用Gumbel-Softmax模拟真实的选择，从而既保持了框架的可导性，又可以得到十分接近0或1的值。

最终搜索阶段中特征选择模块的选择行为定义为：

优化算法

由于深度推荐模型以及控制器网络相互依赖，在训练集上同时训练深度推荐模型的参数以及控制器网络的参数将导致过拟合问题。因此，本工作采用类似DARTS的优化方法，在验证集上更新控制器网络，在训练集上更新深度推荐模型。具体的优化算法如上图。

重训练

在搜索阶段中，我们仍然将所有的特征字段输入到深度推荐模型中。这种做法无法排除次优的特征字段对深度推荐模型的影响。因此，我们需要只使用选中的特征字段重新训练深度模型。

重训练阶段使用的深度推荐模型可以与搜索阶段使用的Embedding+ MLP不同。

实验

指标

AUC， logloss

数据集

Benchmark：Criteo， Avazu，MovieLens1M

实验结果

在两个数据集上，在使用特征字段数量一样或者更少的情况下，相比其他所有特征选择的方法，AutoFIeld均取得了最佳的效果，且好于使用全部特征字段。在Avazu上，只使用一半的特征字段可以取得更好的效果。

迁移实验

在Avazu上进行迁移实验。基于Embedding + MLP的深度推荐模型搜索得到的特征选择结果迁移到其他模型上，也可以帮助其他模型增强推荐效果。同时，使用更少的特征字段也帮助缩短模型的推断时间。

Case Study

我们在Movielens1M上进行实验，发现AutoField对任意的K，都可以取到最优的特征选择结果。图中蓝色点表示遍历的特征组合的效果，橙色点为AutoField选择的特征组合取得的效果。

责任编辑：王叶晶、冷文昊

登录查看更多

相关内容

特征选择

关注 5931

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS )，或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

15+阅读 · 2021年6月26日

【KDD2021】广告主端的“猜你喜欢”：在线广告投放策略推荐系统

专知会员服务

25+阅读 · 2021年6月15日

【WWW2021】神经协同推理

专知会员服务

58+阅读 · 2021年5月17日

【WWW2021】大规模组合K推荐

专知会员服务

44+阅读 · 2021年5月3日