会员服务 ·

CIKM 2022｜FwSeqBlock: 一种在序列建模中增强行为表征的方法

2022 年 11 月 21 日 PaperWeekly

©作者 | 钱浩

单位 | 北邮 GAMMA Lab

研究方向 | 图神经网络

论文标题：

Uncovering the Structural Fairness in Graph Contrastive Learning

收录会议：

NeurIPS 2022

论文链接：

https://arxiv.org/abs/2210.03011

节点表示学习对结构公平性有所要求，即在度小和度大节点上都有良好的性能表现。最近研究表明，图卷积网络 (GCN) 常对度小节点的预测性能较差，在广泛存在的度呈长尾分布的图上表现出结构不公平。图对比学习 (GCL) 继承了 GCN 和对比学习的优势，甚至在许多任务上超越了半监督 GCN。那么 GCL 针对节点度的表现又如何呢？是否可能为缓解结构不公平提供新的思路？

背景

在推荐系统中，对用户兴趣表征的建模已经成为极为关键的环节。在当前的主流工作中，用户兴趣表征 (user interest representation) 的获取主要是通过对用户历史行为表征 (user behavior representation) 聚合 (aggregation) 而得到的 [DIN, DIEN, CAN, Bert4Rec, CSAN]。相较于聚合方法这一类的研究，本文重点研究了如何获得高质量用户历史行为表征，从而更好地增益后续的聚合过程产出准确地用户兴趣表征。

在本文中，我们提出了用户行为表征的计算模块 FwSeqBlock，该模块利用 field memory unit 设计引入了用户历史行为表征与待推荐目标 item 表征间的乘法运算。根据待推荐 item 表征的不同，这样的设计能够动态地从用户历史行为序列中识别关键特征并且滤除不相关的噪声特征。

实验表明，FwSeqBlock 能够在 item 特征数量持续增加的情况下获得稳定的指标增益。同时 FwSeqBlock 具有可插拔的特点，能够无负担地与目前主流 SOTA 序列推荐模型结合并且获得正向的指标增益。

算法方案

2.1 问题定义

首先令表示用户画像，表示待推荐商品特征。其次，用户的历史反馈行为（如：点击）按照发生的时间正向排序后记作 = [ ,.., ,.., ]，其中L为最大的用户行为序列长度。本文研究的建模目标为学习一个预估函数对候选集中待推荐商品进行打分排序，为模型结构中的可训练参数。

本文优化以下 Logloss 损失函数，同时通过增加 L2 正则项稳定训练过程：

其中表示所有训练样本集合，为控制正则项强度的超参数。

2.2 模型结构

▲ 图1. FwSeqBlock模型结构图

2.3 输入层

输入层定义了输入特征和 Embedding 过程。如问题定义中所述，输入特征分别由用户画像，商品特征与用户历史反馈行为特征构成。为了有效的存储和计算，稀疏的 one-hot 编码输入特征通过嵌入过程投影到低维密集表示中，如下所示：

其中 , , 分别是用户画像，商品特征与用户第l个历史行为的低维投影表征。需要注意的是，在输入层中商品特征与历史行为共享相同的参数。

2.4 FwSeqBlock

在当前工业界的序列建模应用中，对于用户历史行为表征的聚合主要采用 pooling 或者 shallow transformation 方法。本研究认为以上方案并不能很好的建模行为表征中不同细粒度特征间的关系（如购买品牌与购买时间），从而导致最终的用户兴趣表征的质量较为平庸。

以非参数的 pooling 方法为例，对有限长度的历史行为序列做 sum pooling 容易持续引入不相关的噪声历史表征，而 mean pooling 则容易过度平滑关键的历史行为，均会导致最终的用户兴趣表征质量下降。

为了解决以上问题，FwSeqBlock 提出利用参数化的 field memory 矩阵来显式的刻画不同细粒度特征之间的重要性。具体地讲，首先我们将商品特征与历史行为表征表示成以下 field-wise 形式：

其中维度，为自定义超参数。为了捕捉用户历史行为与待推荐商品特征之间的交互，我们引入 field memory 矩阵显式地学习不同 field 间的联系，其计算过程如下：

其中为element-wise product。在学习过程中，field memory 矩阵可以认为是一个全局 kernel，根据待推荐商品表征的不同，可以学习并记录用户历史行为表征中关键的模式。在预测推理时，则将待推荐商品的表征转化为关键模式的 indicator function，使其能够 soft-select 用户历史行为表征中相关的关键特征。最终，给定待推荐商品表征，能够较好地刻画行为表征中每个 field 的重要性。

接着，我们引入 field-wise attention 机制动态地聚合单个用户历史行为中重要的表征：

其中是可训练的投影矩阵，是非线性激活函数 softmax。在上述 attention 计算中，筛选出重要性强的 field 并且能够减弱不相关 field 对最终用户行为表征的贡献。同时，计算中的 element-wise product 引入了 multiplicative 计算，能够较为有效地刻画 field 特征之间复杂的交互表征。

最后，我们借鉴了 Skip Connection 和 Layer Normalization 的方法，目标是使训练过程更加顺畅同时避免过拟合的风险，计算如下：

在计算获得后，我们将其维度重新转换至，以便后续的序列操作。

经过以上讨论，FwSeqBlock 聚焦于用户历史行为表征的生成中，具有可插拔的特点，因此可以很方便的与目前 SOTA 序列建模模型相结合。

实验结果

在本节中，我们在 Alibaba 和 Taobao 的公开数据集和我们的业务数据上测试增加 FwSeqBlock 相对于基准 SOTA 方法的效果。Alibaba 和 Taobao 数据集中，每个用户行为中分别有 6 个和 7 个特征（如：ID，类别，品牌等）。我们的业务数据中，存在 17 个特征包括了 ID，品牌，行为发生时的城市、时间、温度等时空相关的环境特征。最终的评价指标上，我们选择了 AUC 与 Logloss。

3.1 整体效果

如下表所示，在基准方法中增加 FwSeqBlock 模块后，所有方法均能获得一致的指标提升。具体指标上，在 Taobao 数据集（6 个特征）中，FwSeqBlock 能够带来 0.49%~0.94% 的 AUC 增益；在业务数据（17 个特征）中，FwSeqBlock 能够获得更加显著的离线指标 AUC 增益。我们认为这样的实验结果能够充分证明 FwSeqBlock 在用户历史行为表征建模中的有效性。

相比 GRU4Rec、Caser、DIN、Bert4Rec 这样专注于聚合用户行为表征的序列建模方法，在增加 FwSeqBlock 后 AUC 指标提升在 0.49~1.69%。因此，我们认为在聚合方法的研究之外，关注行为表征的质量也非常关键。

相比 CSAN，CAN 这样上线文信息相关的模型，FwSeqBlock 的引入仍可以带来一定的提升，证明了对用户历史行为做 field-wise 建模的有效性。

▲ 表1. 模型整体实验效果表

3.2 消融实验

在消融实验中，我们在业务数据中着重测试了 FwSeqBlock 在历史行为表征生成时的性能。实验中，我们的对比方法选型分别为：

Mean pooling (CSAN)
Sum pooling (CSAN)
Concatenation (Bert4Rec, DIN, DIEN)
Co-Action (CAN)

实验方案上，我们向不同的对比选型中逐一增加待推荐商品与历史行为的特征（从单独的 ID 到 17 个全部特征）。结果如下图所示，可以看到 FwSeqBlock 的性能一致地超越了所有的对比方法：

随着特征数量的不断增加 FwSeqBlock 的效果能够稳定地正向增长，其他的对比方案则容易受到噪声的干扰或难以捕捉关键的特征，导致最终用户行为表征恶化。

如模型结构中讨论，非参数化的 sum pooling 引入的噪声使得其表现非常不稳定，同时 mean pooling 也难以处理数量不断增加的特征，导致其表现始终落后 FwSeqBlock 方法。

Concatenation 方法本质上 additive 的，过往的许多研究已经证明 additive 方法较难捕捉高阶的特征交互。相反，FwSeqBlock 引入了 multiplicative 方法，使得其相比于 concat 方法能够取得更显著的信息增益。

Co-Action 方法尽管能够在特征不断增加中获得一致性的提升，但是其效果仍然逊色与 FwSeqBlock 方法。可能的原因在于 co-action embedding 强调通过记忆不同的特征组合，而 FwSeqBlock 则强调通过参数矩阵对特征交互关系进行泛化。

▲ 图2. 消融实验效果图

我们在下图中将参数矩阵的数值进行了可视化，其中越明亮的方块代表数值越大，即不同特征之间的相关性越高。简单观察，我们可以看到类别特征与时间特征更加相关，相反其与空间相关的特征表现相对独立。我们可以认为参数矩阵的学习确实能够动态地分辨不同上下文特征对用户历史行为表征的贡献，最终产出更高准确性的用户兴趣表征，总而增益下游的预估任务。

▲ 图3. 参数可视化图

3.3 线上A/B实验

我们在 2021/7~2021/8 部署了 Bert4Rec with FwSeqBlock 实验，相比基线单独的 Bert4Rec 模型，增加 FwSeqBlock 后线上 PV 点击率相对提升 4.46% 并全量部署。

总结

在这项工作中，我们提出了 FwSeqBlock 模块，用于在序列推荐建模中能够更准确地生成用户历史行为表征。我们通过实验验证了 FwSeqBlock 能够在商品与历史行为特征持续增加中获得一致性的提升，同时 FwSeqBlock 模块在加入 SOTA 序列推荐模型后能取得良好的应用效果。

参考文献

[1] Qingyao Ai, Keping Bi, Jiafeng Guo, and W. Bruce Croft. 2018. Learning a Deep Listwise Context Model for Ranking Refinement. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2018). [1] Lei Jimmy Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. 2016. Layer Normaliza- tion. CoRR abs/1607.06450 (2016). arXiv:1607.06450

[2] Alex Beutel,Paul Covington,Sagar Jain,Can Xu,Jia Li,Vince Gatto, and Ed H. Chi. 2018. Latent Cross: Making Use of Context in Recurrent Recommender Systems. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (Marina Del Rey, CA, USA) (WSDM ’18). Association for Computing Machinery, New York, NY, USA, 46–54.

[3] Qiwei Chen, Huan Zhao, Wei Li, Pipei Huang, and Wenwu Ou. 2019. Behavior Sequence Transformer for E-Commerce Recommendation in Alibaba. , Article 12 (2019), 4 pages

[4] Junyoung Chung, Caglar Gulcehre, Kyung Hyun Cho, and Yoshua Bengio.2014. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv:1412.3555 (2014).

[5] Tom Fawcett. 2006. An introduction to ROC analysis. Pattern Recognition Letters 27, 8 (2006), 861–874.

[6] Yufei Feng, Fuyu Lv, Weichen Shen, Menghan Wang, Fei Sun, Yu Zhu, and Keping Yang. 2019. Deep Session Interest Network for Click-through Rate Prediction. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (Macao, China) (IJCAI’19). AAAI Press, 2301–2307.

[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In 2016 IEEE Conference on Computer Vision and PatternRecognition(CVPR).770–778.

[8] Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, and Domonkos Tikk. Session-based Recommendations with Recurrent Neural Networks. arXiv:1511.06939 (2016).

[9] Xiaowen Huang, Shengsheng Qian, Quan Fang, Jitao Sang, and Changsheng Xu. 2018. CSAN: Contextual Self-Attention Network for User Sequential Recommen- dation. In Proceedings of the 26th ACM International Conference on Multimedia (MM ’18). 447–455.

[10] Qi Pi, Weijie Bian, Guorui Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD 2019, Anchorage, AK, USA, August 4-8, 2019, Ankur Teredesai, Vipin Kumar, Ying Li, Rómer Rosales, Evimaria Terzi, and George Karypis(Eds.).ACM,2671–2679.

[11] Qi Pi, Guorui Zhou, Yujing Zhang, Zhe Wang, Lejian Ren,Ying Fan, Xiaoqiang Zhu, and Kun Gai. 2020. Search-Based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction. In Proceedings of the 29th ACM International Conference on Information Knowledge Management (Virtual Event, Ireland) (CIKM ’20). Association for Computing Machinery, New York, NY, USA, 2685–2692.

[12] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 2014. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. J. Mach. Learn. Res. 15, 1, 1929–1958.

[13] Fei Sun, Jun Liu, Jian Wu, Changhua Pei, Xiao Lin, Wenwu Ou, and Peng Jiang. 2019. BERT4Rec: Sequential Recommendation with Bidirectional En- coder Representations from Transformer. In Proceedings of the 28th ACM In- ternational Conference on Information and Knowledge Management (CIKM ’19). Association for Computing Machinery, New York, NY, USA, 1441–1450.

[14] Jiaxi Tang and Ke Wang. 2018. Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (WSDM ’18). 565–573.

[15] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. [n. d.]. Attention is All you Need. In Advances in Neural Information Processing Systems. Curran Associates, Inc.

[16] Kai Zhang, Hao Qian, Qing Cui, Qi Liu, Longfei Li, Jun Zhou, Jianhui Ma, and Enhong Chen. 2021. Multi-Interactive Attention Network for Fine-Grained Feature Learning in CTR Prediction. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining (Virtual Event, Israel) (WSDM ’21). Association for Computing Machinery, New York, NY, USA, 984–992.

[17] Guorui Zhou, Weijie Bian, Kailun Wu, Lejian Ren, Qi Pi, Yujing Zhang, Can Xiao, Xiang-Rong Sheng, Na Mou, Xinchen Luo, Chi Zhang, Xianjie Qiao, Shiming Xiang, Kun Gai, Xiaoqiang Zhu, and Jian Xu. 2020. CAN: Revisiting Feature Co-Action for Click-Through Rate Prediction. arXiv: 2011.05625 (2020).

[18] Guorui Zhou, Na Mou,Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep Interest Evolution Network for Click-Through Rate Prediction. Proceedings of the AAAI Conference on Artificial Intelligence 33, 01, 5941–5948.

[19] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu,XiaoMa,Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep Interest Network for Click- Through Rate Prediction. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery Data Mining (London, United Kingdom) (KDD ’18). Association for Computing Machinery, New York, NY, USA, 1059–1068.

更多阅读