【干货】20大推荐系统公共数据集分享

2020 年 3 月 13 日 机器学习与推荐算法


本文搜集并整理了推荐系统相关的高质量数据集,其中大多数都是免费的、开放的(部分需要“梯子”),另外还包含一部分预处理数据,可用于学术实验等,希望对大家有所帮助。


电子商务

1、Amazon

  • 简介:

    该数据集包括自1996年5月至2014年7月,来自Amazon上的1.428亿产品的评论和metadata。

  • 下载链接:

       http://jmcauley.ucsd.edu/data/amazon/

2、阿里巴巴

  • 简介:

    该数据集为20000用户在一个月内的移动端行为数据以及百万级的商品信息(部分已脱敏)。该数据集包含两个部分,第一部分是用户在商品全集上的移动端行为数据(D),表名为tianchi_fresh_comp_train_user_2w,第二个部分是商品子集(P),表名为tianchi_fresh_comp_train_item_2w。

  • 下载链接:

     https://tianchi.aliyun.com/competition/entrance/231522/information

3、RetailRocket推荐系统数据集

  • 简介:

    该数据集来自现实世界的电子商务网站,由三个文件组成:一个属性数据集(item_properties.сsv),一个行为数据集(events.csv)以及一个类目树数据集(category_tree.сsv)。

  • 下载链接:

    https://www.kaggle.com/retailrocket/ecommerce-dataset

书籍

4、Book Crossing

  • 简介:

    该数据集由Cai-Nicolas花了4周的时间(2004年8月~9月)从Book-Crossing社区中爬取得到的

  • 下载链接:

    http://www2.informatik.uni-freiburg.de/~cziegler/BX/ 

电影

5、Netflix

  • 简介:

    该数据集为Netflix竞赛中使用的官方数据集

  • 下载链接:

    http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a


6、MovieLens

  • 简介:

    该数据集为GroupLens Research从他们的电影网站收集并整理的rating数据集。

  • 下载链接:

    https://grouplens.org/datasets/movielens/

7、CiaoDVD

  • 简介:

    该数据集为是2013年12月从dvd.ciao.co.uk网站上抓取的DVD类别数据集。

  • 下载链接:

    https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

8、FilmTrust

  • 简介:

    该数据集为是2011年6月从整个FilmTrust网站上抓取的一个小型数据集。

  • 下载链接:

    https://www.librec.net/datasets.html

音乐

9、Yahoo Music

  • 简介:

    该数据集包含从两个不同来源收集的歌曲的rating数据集。它是一个快照,收集了音乐社区对各种音乐艺术家的偏好等。

  • 下载链接:

    https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

10、Amazon Music

  • 简介:

    该数据集包含来自亚马逊的元数据和评论。

  • 下载链接:

    http://jmcauley.ucsd.edu/data/amazon/

11、LastFM(Implicit)

  • 简介:

    该数据集收集了Last.fm网站上2千名用户的社交网络、tagging和music artist listening信息。

  • 下载链接:

    https://grouplens.org/datasets/hetrec-2011/

12、Milion Song Dataset

  • 简介:

    该数据集是一个免费的数据集,提供了一百万条当代流行音乐曲目相关的metadata和audio features。

  • 下载链接:


    https://labrosa.ee.columbia.edu/millionsong/

    游戏

13、Steam Video Games

  • 简介:

    该数据集是一个用户行数据集,包含:game-title,user-id,behavior-name,value等。    

  • 下载链接:

    https://www.kaggle.com/tamber/steam-video-games/data

笑话

14、Jester

  • 简介:

    该数据集包含来自73,496个用户,关于100个笑话的410万连续rating数据(-10.00到+10.00)。

  • 下载链接:

    http://www.ieor.berkeley.edu/~goldberg/jester-data/

  餐饮

15、Chicago Entree

  • 简介:

    该数据集包含用户与Entree Chicago餐厅推荐系统交互的记录数据。

  • 下载链接:   http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data

     动漫

16、动漫推荐数据集

  • 简介:

    该数据集包含来自12,294个动漫的73,516个用户的用户偏好数据。每个用户都可以将动画添加到已完成的列表中并为其评分,该数据集把这些评级整理起来。

  • 下载链接:

    https://www.kaggle.com/CooperUnion/anime-recommendations-database

   其他数据集

17、斯坦福大型网络数据集汇编

  • 下载链接:

    https://snap.stanford.edu/data/ 

18、GroupLens数据集

  • 下载链接:

    https://grouplens.org/datasets/

19、Yahoo Research数据集

  • 下载链接:

    https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

20、LibRec数据集

  • 下载链接:

    https://www.librec.net/datasets.html



推荐阅读

[0]. 推荐系统干货总结

[1]. 推荐系统之矩阵分解家族

[2]. 更新!带你认识推荐系统全貌的论文清单

[3]. 当推荐系统邂逅深度学习

[4]. 推荐系统领域中那些巧妙运用的idea



登录查看更多
57

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector
专知会员服务
55+阅读 · 2020年2月10日
专知会员服务
87+阅读 · 2020年1月20日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
Arxiv
7+阅读 · 2020年3月1日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关VIP内容
相关资讯
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
相关论文
Arxiv
7+阅读 · 2020年3月1日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2016年1月15日
Top
微信扫码咨询专知VIP会员