CIKM2022 | 深度CTR模型过拟合现象分析

2022 年 10 月 18 日 机器学习与推荐算法
今天跟大家分享一篇探究深度点击率预估模型过拟合现象的文章。
Title: Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models
From: CIKM 2022 阿里

Link:https://arxiv.org/abs/2209.06053



01
引言

论文基于CTR模型,对推荐系统中的过拟合现象进行研究分析,CTR模型的过拟合现象非常特殊:在第一个epoch 结束后,模型急剧过拟合,测试集效果急剧下降,称这种现象为“one epoch现象”,如下图:

论文主要贡献:
  • 采用工业数据集进行了广泛的实验,结果表明:深度CTR模型存在one epoch现象。具体来说,模型在第二个epoch开始时对训练数据突然过度拟合,导致模型效果下降;

  • 模型结构、收敛速度快的优化算法和特征稀疏性都与one-epoch现象密切相关。虽然可以通过限制这些因素来训练模型的多个epoch,但通常第一个epoch效果最好,也解释了为什么大多数工业场景中,深度CTR模型只进行一次数据训练。

  • 提出了一个假设来解释one epoch现象:在第二个epoch开始时,MLP层快速适应Embedding层特征分布,过拟合突然发生,导致one-epoch现象,并设计实验进行验证。


02
ONE-EPOCH现象分析

采用工业数据集,从模型和特征两个方面进行分析,深度CTR模型如下图,通过分析模型结构、收敛速度和特征稀疏性与one epoch现象密切相关。


2.1 模型因素

(1)模型结构

对比LR和深度CTR模型,LR模型随着epoch增加,test auc在提升,不存在one epoch现象,说明深度网络结构(Embedding+DNN)与one epoch现象有关

(2)模型参数量

设置不同embedding维度、MLP节点和层数,都存在one epoch现象,说明与参数量无关。


(3)激活函数与batch size

采用不同batch size和激活函数,均存在one epoch现象。

(4)优化方法

与SGD相比,Adam和RMSprop收敛速度更快,但更容易出现one-epoch现象,同时学习率也与one-epoch现象有关,因此使模型收敛速度快的方法会增加one-epoch问题的风险。


(5)Weight Decay and Dropout

Weight Decay and Dropout都不能缓解和解决one-epoch现象。


2.2 特征因素

特征主要包含:用户特征(年龄、性别等)、用户行为特征(如点击序列)、item特征(item id、类别等)、contextual特征,其中细粒度特征(如item ID和history item ID)具有稀疏性和长尾的特点,如下表:

为了验证特征稀疏性对one-epoch现象影响,采用filter和hash减少稀疏性:

  • filter:只保留top m比例的高频IDs,过滤长尾IDs(设置为默认值)

  • hash:把ID映射到大小为m比例的空间

实验结果如下图:随着m减小,one-epoch现象不断缓解,说明特征的稀疏性与one-epoch现象密切相关。


03
ONE-EPOCH假设验证

提出一种假设来解释one-epoch现象:在第二个epoch开始时,MLP层快速适应Embedding层特征分布,过拟合突然发生,导致one-epoch现象


3.1 联合分布差异

采用  表示点击与未点击样本之间的可分离性,值越大,表示点击和未点击样本的embedding层分布差异越大,更容易被MLP区分,定义如下式: 

其中   表示样本   的embedding层输出,MLP层是在embedding层联合分布  上进行学习,   表示分类loss。

训练过程中计算   ,结果如下图:

  • 图(a):对于训练样本,在第2个epoch开始,   突然增加,对于测试样本,相对稳定,说明对已训练样本,MLP能快速适应

  • 图(b)-(d):细粒度特征会使   突增,说明embedding层中的稀疏特征,使得训练和测试集中   存在差异


3.2 快速适应训练样本

(1)分析embedding层和MLP参数随epoch变化,如下图:embedding层参数相对稳定,MLP层参数在第2个epoch存在突增

(2)固定参数进行fine-tune,如下图,fine-tuning MLP层导致one-epoch现象。


更多细节欢迎阅读原文。

欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

论文周报 | 推荐系统领域最新研究进展
推荐系统排序环节Embedding建模总结
RecSys2022 | 多阶段推荐系统的神经重排序教程

由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容, 请将本号设为星标,以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇
登录查看更多
0

相关内容

推荐算法中的特征工程
专知会员服务
38+阅读 · 2022年9月9日
基于图注意力机制和Transformer的异常检测
专知会员服务
59+阅读 · 2022年5月16日
WWW 2022 :基于纯MLP架构的序列推荐模型
专知会员服务
15+阅读 · 2022年3月20日
WWW2022 | 迷途知返:分布迁移下的图神经网络自训练方法
专知会员服务
16+阅读 · 2022年2月19日
CIKM2021 | 异质图上的图神经网络对比预训练
专知会员服务
15+阅读 · 2021年11月8日
专知会员服务
55+阅读 · 2021年6月30日
【IJCAI2021】深度点击率预估模型综述论文,9页pdf
专知会员服务
27+阅读 · 2021年5月11日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
31+阅读 · 2021年2月27日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
深度总结 | 推荐算法中的特征工程
机器学习与推荐算法
0+阅读 · 2022年9月7日
精排模型-从MLP到行为序列:DIN、DIEN、MIMN、SIM、DSIN
机器学习与推荐算法
0+阅读 · 2022年6月21日
推荐系统+图神经网络,预训练技术研究进展
图与推荐
3+阅读 · 2022年1月5日
CNN、Transformer、MLP架构的经验性分析
极市平台
0+阅读 · 2022年1月1日
一文了解点击率预估(CTR)建模
机器学习与推荐算法
0+阅读 · 2021年10月22日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
VIP会员
相关VIP内容
推荐算法中的特征工程
专知会员服务
38+阅读 · 2022年9月9日
基于图注意力机制和Transformer的异常检测
专知会员服务
59+阅读 · 2022年5月16日
WWW 2022 :基于纯MLP架构的序列推荐模型
专知会员服务
15+阅读 · 2022年3月20日
WWW2022 | 迷途知返:分布迁移下的图神经网络自训练方法
专知会员服务
16+阅读 · 2022年2月19日
CIKM2021 | 异质图上的图神经网络对比预训练
专知会员服务
15+阅读 · 2021年11月8日
专知会员服务
55+阅读 · 2021年6月30日
【IJCAI2021】深度点击率预估模型综述论文,9页pdf
专知会员服务
27+阅读 · 2021年5月11日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
31+阅读 · 2021年2月27日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
相关资讯
深度总结 | 推荐算法中的特征工程
机器学习与推荐算法
0+阅读 · 2022年9月7日
精排模型-从MLP到行为序列:DIN、DIEN、MIMN、SIM、DSIN
机器学习与推荐算法
0+阅读 · 2022年6月21日
推荐系统+图神经网络,预训练技术研究进展
图与推荐
3+阅读 · 2022年1月5日
CNN、Transformer、MLP架构的经验性分析
极市平台
0+阅读 · 2022年1月1日
一文了解点击率预估(CTR)建模
机器学习与推荐算法
0+阅读 · 2021年10月22日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员