推荐一个基于TF2.0的推荐算法仓库

2021 年 9 月 1 日 机器学习与推荐算法

前言

开源项目Recommended System with TF2.0主要是对阅读过的部分推荐系统、CTR预估论文进行复现。建立的原因有三个:

  1. 理论和实践似乎有很大的间隔,学术界与工业界的差距更是如此;
  2. 更好的理解论文的核心内容,增强自己的工程能力;
  3. 很多论文给出的开源代码都是TF1.x,因此想要用更简单的TF2.0进行复现;

当然也看过一些知名的开源项目,如DeepCTR等,不过对自己目前的水平来说,只适合拿来参考。

项目特点:

  • 使用TF2.0-CPU进行复现;
  • 每个模型都是相互独立的,不存在依赖关系;
  • 模型基本按照论文进行构建,实验尽量使用论文给出的的公共数据集。如果论文给出github代码,会进行参考;
  • 对于实验数据集有专门详细的介绍;
  • 代码源文件参数、函数命名规范,并且带有标准的注释;
  • 每个模型会有专门的代码文档( .md文件)或者其他方式进行解释;

目前复现的模型有(按复现时间进行排序):

  1. NCF
  2. DIN
  3. Wide&Deep
  4. DCN
  5. PNN
  6. Deep Crossing
  7. FM
  8. AFM
  9. DeepFM
  10. BPR
  11. Caser
  12. MF
  13. SASRec
  14. NFM
  15. DNN

持续更新中······

数据集介绍

目前实验使用的数据集主要有三个:Movielens、Amazon、Criteo。

Movielens

MovieLens是历史最悠久的推荐系统数据集,主要分为:ml-100k(1998年)、ml-1m(2003年)、ml-10m(2009年)、ml-20m(2015年)、ml-25m(2019年)。实验中主要使用ml-1m数据集。

已处理过的数据集:ml-1m

ml-1m数据集的具体介绍与处理:传送门【https://grouplens.org/datasets/movielens/

Amazon

Amazon提供了商品数据集,该数据集包含亚马逊的产品评论和元数据,包括1996年5月至2014年7月期间的1.428亿评论。它包括很多子数据集,如:Book、Electronics、Movies and TV等,实验中我们主要使用Electronics子数据集

Amazon-Electronics数据集的具体介绍与处理:传送门【https://jmcauley.ucsd.edu/data/amazon/

Criteo

Criteo广告数据集是一个经典的用来预测广告点击率的数据集。2014年,由全球知名广告公司Criteo赞助举办Display Advertising Challenge比赛。但比赛过去太久,Kaggle已不提供数据集。现有三种方式获得数据集或其样本:

  1. Criteo_sample.txt:包含在DeepCTR中,用于测试模型是否正确,不过数据量太少;
  2. kaggle Criteo:训练集(10.38G)、测试集(1.35G);(实验大部分都是使用该数据集)
  3. Criteo 1TB:可以根据需要下载完整的日志数据集;

Criteo数据集的具体介绍与处理:传送门【https://github.com/BlackSpaceGZY/Recommended-System-with-TF2.0/blob/master/Dataset%20Introduction.md#3-criteo

复现论文

1. Neural network-based Collaborative Filtering(NCF)

模型:

数据集:

Movielens、Pinterest

代码解析:

原文开源代码:

https://github.com/hexiangnan/neural_collaborative_filtering

原文地址:

https://arxiv.org/pdf/1708.05031.pdf?source=post_page

2. Deep Interest Network for Click-Through Rate Prediction(DIN)

模型:

数据集:

Amazon数据集中Electronics子集。

代码解析:

参考原文开源代码地址:

https://github.com/zhougr1993/DeepInterestNetwork

原文地址:

https://arxiv.org/pdf/1706.06978.pdf


3. Wide & Deep Learning for Recommender Systems

模型:

数据集:

由于原文没有给出公开数据集,所以在此我们使用Amazon Dataset中的Electronics子集,由于数据集的原因,模型可能与原文的有所出入,但整体思想还是不变的。

代码解析:

原文地址:

https://arxiv.org/pdf/1606.07792.pdf


4. Deep & Cross Network for Ad Click Predictions

模型:

数据集:

Criteo

代码解析:

原文地址:

https://arxiv.org/pdf/1708.05123.pdf


5.Product-based Neural Networks for User Response Prediction

模型:

数据集:

Criteo

代码解析:

原文地址:

https://arxiv.org/pdf/1611.00144.pdf


6. Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features

模型:

数据集:

Crieto

代码解析:

Deep Crossing代码文档

原文地址:

https://www.kdd.org/kdd2016/papers/files/adf0975-shanA.pdf

总结

希望大家给个star支持一下,非常感谢🙏

欢迎大家分享读后感或者提意见/建议~

喜欢的话点个在看吧👇

登录查看更多
0

相关内容

全球最大的个性化重定向广告服务商。目前已覆盖桌面端和移动端,提供广告定制及重定向投放。
专知会员服务
27+阅读 · 2021年7月20日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
29+阅读 · 2019年10月17日
基于Pytorch的开源推荐算法库
机器学习与推荐算法
1+阅读 · 2021年10月12日
社区分享 | Spark 玩转 TensorFlow 2.0
TensorFlow
15+阅读 · 2020年3月18日
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
57+阅读 · 2020年3月13日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Building Odia Shallow Parser
Arxiv
0+阅读 · 2022年4月19日
VIP会员
相关VIP内容
相关资讯
基于Pytorch的开源推荐算法库
机器学习与推荐算法
1+阅读 · 2021年10月12日
社区分享 | Spark 玩转 TensorFlow 2.0
TensorFlow
15+阅读 · 2020年3月18日
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
57+阅读 · 2020年3月13日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员