SIGIR 2020 | 第四范式提出深度稀疏网络模型，显著提升高维稀疏表数据分类效果

2020 年 7 月 31 日 PaperWeekly

如今，在金融、零售、电商、互联网等领域的 AI 应用中，表数据都是最为常见且应用广泛的数据格式。将表数据进行准确的分类预测，对业务的提升起着至关重要的作用。

日前，第四范式提出了全新的深度神经网络表数据分类模型——深度稀疏网络（Deep Sparse Network，又名 NON），通过充分捕捉特征域内信息、刻画特征域间潜在相互作用、深度融合特征域交互操作的输出，获得超过 LR、GBDT 等常用算法以及 FFM、Wide&Deep、xDeepFM、AutoInt 等基于深度学习算法的分类效果，提升了表数据的预测准确度。

论文标题：Network On Network for Tabular Data Classificationin Real-world Applications

论文作者：罗远飞、周浩、涂威威、陈雨强、戴文渊、杨强

论文链接：https://arxiv.org/abs/2005.10114

表数据分类模型的现状

在表格数据中，每行对应一个实例（样本），每列对应一个特征域。表数据分类是根据实例的特征域，将其分到对应的类别中。表数据通常同时具有连续特征域和类别特征域，而类别特征域通常是高维稀疏的。例如在在线广告中，类别特征域“advertiser_id”可能包含数百万个不同的广告主 id。

过往，包括随机森林、GBDT 在内的树模型常用于表数据分类，它们对连续数值表数据有很好的效果，但对包含高维离散特征域的表数据不友好。一方面，树模型需要枚举所有特征域的所有特征，这对于高维的类别特征域来说效率很低。另一方面，由于类别特征域的稀缺性，对其进行分割所获得的收益较小。

因此，在实际应用场景中，对数几率回归（Logistic Regression，LR）成为了大规模稀疏表数据分类的常用方法之一，但由于其线性特性，它缺乏对特征域间非线性交互的学习能力。因此 LR 通常需要进行大量的特征工程，来刻画目标与特征域之间的非线性。

此外，FM 与 FFM 将稀疏输入特征嵌入到低维稠密向量中，并利用向量的内积显式学习特征间二阶交互。FM 和 FFM 取得了较好的效果，但由于它们的结构较浅，其表达能力也受到了限制。

近年来，基于深度学习的表格数据分类方法以其强大的表示能力和泛化能力得到了广泛的研究，并取得了一定的成功。包括 Wide&Deep、DeepFM（Deep Factorization Machine）、xDeepFM、AutoInt 在内的深度学习模型大多采用如下设计范式：

1）将每个特征域的输入映射为低维稠密向量；

2）使用 DNN 或 FM 等多种操作直接融合不同特征域对应的向量；

3）将各操作的输出进行线性加权，得到最终的预测结果。

然而此类方法有以下三个问题：

首先，现有方法直接融合不同特征域的向量表示，而未显式地考虑域内信息。我们将“每个特征域内的不同特征值，均属于同一个特征域”记为域内信息。对于每个特征域中的特征，它们的内在属性是都属于同一个特征域。

以在线广告场景为例，假设特征域 ‘advertiser_id’ 和 ‘user_id’ 分别表示广告商和用户的 ID，则特征域 ‘advertiser_id’（‘user_id’）中的不同的广告商 ID（用户 ID）都属于广告商（用户）这个特征域。此外，特征域有自己的含义，如 “advertiser_id” 和 “user_id” 分别代表广告主和用户，而不管域内特征的具体取值。

其次，大多数现有方法使用预定义的特征域交互操作组合（如 DNN、FM），而未考虑输入数据。事实上，预定义的操作组合并不适用于所有的数据，而是应该根据数据选择不同的操作，以获得更好的分类效果。

最后，现有方法忽略了特征域交互操作（如 DNN 和 FM）的输出之间的非线性。

全新模型结构带来出色的效果

为了解决上述问题，第四范式提出了深度稀疏网络，它由三部分组成：底层为域内网络（Field-wise Network），中层为域间网络（Across Field Network），顶层为融合网络（Operation Fusion Network）。

域内网络为每个特征域使用一个 DNN 来捕获域内信息，域间网络采用多种域间交互操作来刻画特征域间潜在的相互作用，最后，融合网络利用 DNN 对所选特征域交互操作的输出进行深度融合，得到最终的预测结果。

2.1 域内网络

现有的主流深度表数据分类方法中，特征域内信息没有被显示地考虑并加以利用。深度稀疏网络利用域内网络来显示地学习特征域内信息。在域内网络中，每个特征域都与一个 DNN 相连，并且每个特征域的 embedding 首先输入到该 DNN 中。鉴于 DNN 的强大的表达能力，特征域内信息可以被充分地学习。

在实际应用中，不同特征域对应的域内网络可以堆叠（stacking）起来，使用并行计算进行加速。另外，域内网络输出的 embedding 可以直接输入到域间网络，也可以通过和原始的 embedding 相互作用，来修正得到的 embedding，常见的修正方法有拼接、按位相乘、门操作等。

2.2 域间网络

域间网络采用多种交互操作来刻画特征域间的潜在相互作用，常见的特征域交互操作包括 LR、DNN、FM、Bi-Interaction 和多头自注意网络等。现有方法中，域间交互操作的方式是用户事先制定的。而在深度稀疏网络中，可以通过数据，自适应地选择最合适的操作组合，即在深度稀疏网络中，操作组合的选择是数据驱动的。

2.3 融合网络

现有的方法对不同操作的输出线性地加权求和，然后通过 sigmoid 函数得到最终的预测结果，而忽略了不同操作输出之间的非线性关系。在深度稀疏网络中，融合网络通过 DNN 对域间网络所选操作的输出进行深度融合，并得到最终的预测结果。

2.4 逐层监督训练

虽然 NON 模型结构增强了模型的表现力，但其模型复杂度也随之升高，训练更加困难。对此，第四范式引入逐层监督训练技术，即在神经网络的中间层引入额外的损失函数，使得中间层的表达更具判别性。经测试，该方案不仅能够增加模型最终预测效果，也使得模型能在更短的时间内，取得更好的效果。

实验

3.1 实验数据

本次实验共选取了六个数据集，包括三个流行的基准数据集 Criteo、Avazu、Movielens (ML-20M) ，以及三个实际业务数据集 Talkshow、Social、Sports。数据集从百万到千万级，具体统计信息如下表所示。

3.2 全新的结构设计提升泛化性能

经多个公开数据集验证，域内网络捕获的域内信息有助于提高模型的泛化性能；且随着 NON 不同的组件堆叠，模型的预测效果持续增长。

3.3 效果全面领先主流深度模型

与 FFM、DNN、Wide&Deep、NFM、xDeepFM、AutoInt 等模型相比，深度稀疏网络在实验数据集上均能获得最好的结果，AUC 可提高 0.64%~0.99%。

3.4 根据数据选定合适的特征域间交互操作

在域间网络中，深度稀疏网络将不同的交互操作视为超参数，并根据在具体数据上的预测效果，选择最适合的交互操作。其中，DNN 被视为必选，而其他操作（LR、Bi-Interaction和multi-head self-attention）被视为可选。同时，我们通过固定深度稀疏网络的其他层，只变换域间网络中不同的操作组合来进行更多验证。