The click-through rate (CTR) prediction task is to predict whether a user will click on the recommended item. As mind-boggling amounts of data are produced online daily, accelerating CTR prediction model training is critical to ensuring an up-to-date model and reducing the training cost. One approach to increase the training speed is to apply large batch training. However, as shown in computer vision and natural language processing tasks, training with a large batch easily suffers from the loss of accuracy. Our experiments show that previous scaling rules fail in the training of CTR prediction neural networks. To tackle this problem, we first theoretically show that different frequencies of ids make it challenging to scale hyperparameters when scaling the batch size. To stabilize the training process in a large batch size setting, we develop the adaptive Column-wise Clipping (CowClip). It enables an easy and effective scaling rule for the embeddings, which keeps the learning rate unchanged and scales the L2 loss. We conduct extensive experiments with four CTR prediction networks on two real-world datasets and successfully scaled 128 times the original batch size without accuracy loss. In particular, for CTR prediction model DeepFM training on the Criteo dataset, our optimization framework enlarges the batch size from 1K to 128K with over 0.1% AUC improvement and reduces training time from 12 hours to 10 minutes on a single V100 GPU. Our code locates at https://github.com/bytedance/LargeBatchCTR.


翻译:点击通速率( CTR) 的预测任务是预测一个用户是否会点击推荐的项目。 由于每天在线生成大量数据, 加速 CTR 预测模型培训对于确保更新模型和降低培训成本至关重要。 提高培训速度的一种方法是应用大型批量培训。 然而, 如计算机视觉和自然语言处理任务所示, 大量批量培训很容易受到准确性损失的影响。 我们的实验显示, 先前的缩放规则在CTR 预测神经网络的培训中失败。 为了解决这个问题, 我们首先理论上显示, 不同频率的id在量大小时, 难以缩放超分数。 为了在大批量设置中稳定培训进程, 我们开发了适应性的列滴滴( CowClipp) 。 它为嵌入提供了一个简单而有效的缩放规则, 使学习率保持不变, 缩放L2损失。 我们在两个真实世界数据集上与四个 CTR 预测网络进行了广泛的实验, 并且成功地将原批量规模缩了128倍, 而没有准确性损失 。 特别是, CTR 将我们的C AS IM 模型 改进到 我们的 12 AS 样 A ASlob 培训 10, 从 CA 将 将 的 的 的 ASloim/ train 压缩 压缩 压缩 压缩 压缩 的 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩到 CA 格式 框架 压缩到 CA t 压缩 压缩 压缩到 CA 压缩 压缩到 我们 10, 从 1, 从 1, 从 1, 从 1 到 CB 格式 格式 将 我们的 格式 的 的 将 我们的 将 我们的 格式 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 压缩 的 的 的 的 压缩 的 的 压缩 压缩 的 的 压缩 的 的 的 的 的 的 压缩 压缩 的 的 压缩 压缩 的 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩 压缩

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Latest News & Announcements of the Tutorial
中国图象图形学学会CSIG
3+阅读 · 2021年12月20日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium1
中国图象图形学学会CSIG
0+阅读 · 2021年11月3日
【ICIG2021】Latest News & Announcements of the Industry Talk2
中国图象图形学学会CSIG
0+阅读 · 2021年7月29日
【ICIG2021】Latest News & Announcements of the Industry Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年7月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2022年6月10日
On Data Scaling in Masked Image Modeling
Arxiv
0+阅读 · 2022年6月9日
Arxiv
15+阅读 · 2021年7月14日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Latest News & Announcements of the Tutorial
中国图象图形学学会CSIG
3+阅读 · 2021年12月20日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium1
中国图象图形学学会CSIG
0+阅读 · 2021年11月3日
【ICIG2021】Latest News & Announcements of the Industry Talk2
中国图象图形学学会CSIG
0+阅读 · 2021年7月29日
【ICIG2021】Latest News & Announcements of the Industry Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年7月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员