历史最全-16个推荐系统开放公共数据集整理分享

2018 年 7 月 28 日 深度学习与NLP

    (本文由深度学习与NLP编译)

    本文主要整理了一些与推荐系统相关的高质量的数据集。整理自Stack Overflow、一些文章、推荐站点和学术实验。其中,大多数数据集都是免费、开放的,但有些不是,需要获得许可或引用作者的工作才能使用。此外,其中也包含一些预处理数据,可用于学术实验。链接和数据集描述。


Book

· 1. Book Crossing

    BookCrossing(BX)数据集由Cai-Nicolas花了的4周(2004年8月/ 9月)从Book-Crossing社区中爬取得到的。

· 下载链接:http://www2.informatik.uni-freiburg.de/~cziegler/BX/


电子商务

· 2. Amazon

    该数据集包括自1996年5月至2014年7月,来自亚马逊上的1.428亿产品的评论和metadata。

· 下载链接:http://jmcauley.ucsd.edu/data/amazon/


· 3. Retailrocket推荐系统数据集

    该数据集由三个文件组成:一个行为数据集(events.csv),一个属性数据集(item_properties.сsv)和一个类目树数据集(category_tree.сsv)。该数据来自现实世界的电子商务网站。

· 下载链接:https://www.kaggle.com/retailrocket/ecommerce-dataset


音乐

· 4. Amazon Music

    该数字音乐数据集包含来自亚马逊的评论和元数据

· 下载链接:http://jmcauley.ucsd.edu/data/amazon/


· 5. Yahoo Music

    该数据集是一个快照,收集了音乐社区对各种音乐艺术家的偏好。

· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


· 6. LastFM(Implicit)

    该数据集收集了Last.fm网站上2千名用户的社交网络、tagging和music artist listening信息。

· 下载链接:https://grouplens.org/datasets/hetrec-2011/


· 7. Milion Song Dataset

    Million Song数据集是一个免费的数据集,提供了一百万条当代流行音乐曲目相关的的audio features和metadata。

· 下载链接:https://labrosa.ee.columbia.edu/millionsong/


电影

· 8. MovieLens

    GroupLens Research已经从他们的电影网站收集整理的rating数据集。

· 下载链接:https://grouplens.org/datasets/movielens/


· 9. Yahoo Movies

    该数据集包含从两个不同来源收集的歌曲的rating数据集。第一个来源是用户在与Yahoo上使用音乐服务是产生的rating数据。

· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


· 10. CiaoDVD

    CiaoDVD是2013年12月从dvd.ciao.co.uk网站上抓取的DVD类别数据集。

· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


·11. FilmTrust

    FilmTrust是2011年6月从整个FilmTrust网站上抓取的一个小型数据集。

· 下载链接:https://www.librec.net/datasets.html


· 12. Netflix

    这是Netflix奖竞赛中使用的官方数据集。

· 下载链接:http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a


游戏

· 13. Steam Video Games

    这是一个用户行数据集,包含:user-id,game-title,behavior-name,value。包括“purchase”和“play”数据集。购买了,puchase的值为1,而“play”的值表示用户播放音乐的时长。

· 下载链接:https://www.kaggle.com/tamber/steam-video-games/data


Jokes

· 14. Jester

    该笑话数据集包含来自73,496个用户,关于100个笑话的410万连续rating数据(-10.00到+10.00)

· 下载链接:http://www.ieor.berkeley.edu/~goldberg/jester-data/


餐饮

·15. Chicago Entree

    该数据集包含用户与Entree Chicago餐厅推荐系统交互的记录数据。

· 下载链接:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data


动漫

·16. 动漫推荐数据库

    该数据集包含来自12,294个动漫的73,516个用户的用户偏好数据。每个用户都可以将动画添加到已完成的列表中并为其评分,该数据集把这些评级整理起来。

· 下载链接:https://www.kaggle.com/CooperUnion/anime-recommendations-database


其他数据集

· GroupLens数据集

· 下载链接:https://grouplens.org/datasets/


· LibRec数据集

· 下载链接:https://www.librec.net/datasets.html


· Yahoo Research数据集

· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


· 斯坦福大型网络数据集汇编

· 下载链接:https://snap.stanford.edu/data/

往期精彩内容推荐

每周论文分享-0723

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

一文告诉你Adam、AdamW、Amsgrad区别和联系,助你实现Super-convergence的终极目标

COLING 2018-最新论文最全分类-整理分享

谷歌、微软、Facebook等2018最新面试题分享

纯干货11 强化学习(Reinforcement Learning)教材推荐

优化策略5 Label Smoothing Regularization_LSR原理分析

纯干货-8 21套深度学习相关的视频教程分享

模型汇总17 基于Depthwise Separable Convolutions的Seq2Seq模型_SliceNet原理解析

模型汇总16 各类Seq2Seq模型对比及《Attention Is All You Need》中技术详解

模型汇总15 领域适应性Domain Adaptation、One-shot/zero-shot Learning概述

扫描下方二维码可以订阅哦!

DeepLearning_NLP

深度学习与NLP

       商务合作请联系微信号:lqfarmerlq

登录查看更多
22

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
专知会员服务
87+阅读 · 2020年1月20日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
66+阅读 · 2018年4月19日
自然语言处理数据集免费资源开放(附学习资料)
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关资讯
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
66+阅读 · 2018年4月19日
自然语言处理数据集免费资源开放(附学习资料)
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
相关论文
Arxiv
7+阅读 · 2020年3月1日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
6+阅读 · 2016年1月15日
Top
微信扫码咨询专知VIP会员