【新数据集】亚马逊Kindle电子书和纸质图书销售排行数据(61000本书,2亿数据点)

2018 年 7 月 2 日 专知

【导读】近日,Mario Lurig开源了一份亚马逊纸质书及Kindle电子书销售排行的数据集。包含61000本书、2亿数据点、从2017年1月1日开始到2018年6月29日的图书销售排行数据。


Amazon sales rank data for print and kindle books

61,000 unique ASINs and 200,000,000 salesrank data points.


  • 简介

Mario Lurig: 近十年来,我一直在为通过亚马逊在全球范围内发表文章的作者收集salesrank。这些数据每小时收集一次,每24小时一次。一年中收集了GB级数据。多年来,我一直使用销售额变化来估计作者的销售量#,这是由于排名数据作为主要来源的固有缺陷,对于低销量的卖家来说,要比高销量的卖家要好得多。不可靠的数据收集会使情况加剧。


新数据集最早的数据从2017年1月1日开始,最新的数据到2018年6月29日。在61000+本独特的书籍中,Kindle版和纸质版之间大约是50/50的比例。这一点至关重要,亚马逊的销售排名按图书分类分为这两类。因此,数据集中可以有两本书同时拥有相同的销售排名(其中一个在Kindle组,另一个在图书组)。


在数据集中,有一小部分书籍,具有更一致的销售排名集合,特别是他们有小时销售排名集合。*(未来的目标:只提供这些ASINs的.zip文件)。这些标题由NovelRank Pro用户跟踪,对其跟踪没有任何限制。一段时间不卖的图书会将跟踪时间限制为每24小时降低一次,直到检测到销售排名下降为止,因此大多数数据收集时间戳的可变性也会受到影响。


最后,当salesrank没有改变时,NovelRank不记录它。 换句话说,拿上面提到的每小时检查的书籍,如果销售额没有变化,那么由于这个细节,数据点之间可能会有2小时或更长时间的差距。 这对于保持非常好的排名的书籍以及排名非常低的图书的书籍来说也是如此。


*亚马逊每小时更新一次销售排名。


数据集的一些缺陷

  • 在一个订单中购买一个标题(title)的多份副本(copis),就销售排名的提升而言,将算作一次销售。

  • 由于销售而引起的销售排名变化可能会比实际销售延迟3到12个小时。

  • 销售排名是该领域中的项目总数所独有的,而且由于这种情况不断变化,任何单一公式都不能代表一个很好的估计。例如,由于不同的group size,亚马逊(Amazon.com)上的Kindle版本图书的范围和变化程度将远远超过在amazon.it(意大利)上的印刷版图书。


  • 数据集

  1. amazon_com.csv

仅代表Amazon.com的全部图书信息:

  • ASIN是唯一的Amazon标识符。长10个字符,大写,字母和数字的混合,标识了数据文件名的第一部分。

  • GROUP要么是“书(book)”类,要么是“Kindle”类,按销售排名分为两类。

  • FORMAT是特定的书籍格式,小写。



2. rank.zip

文件名格式:{ASIN}_{TLD}.json


内容:ranks.zip 包含一个包含单个JSON文件的文件夹 ranks。 每个JSON文件都是UNIX时间戳(seconds since epoch)作为key,salesrank整数作为value。


注意: ranks.zip 包含 second accurate timing。如果你喜欢按小时调整时间戳,以便更容易地进行跨ASINs的比较,请下载 *ranks_norm.zip*。没必要同时用两个压缩文件。


3. ranks_norm.zip

文件名格式:{ASIN}_{TLD}.json


内容:ranks_norm.zip 包含一个包含单个JSON文件的文件夹 ranks_norm。 每个JSON文件都是UNIX时间戳(seconds since epoch)作为key,salesrank整数作为value。


注意: ranks_norm.zip 包含hour rounded timing。如果你喜欢second accurate timing,请下载 *ranks.zip*。没必要同时用两个压缩文件。


各项比例:



  • 下载地址

https://www.kaggle.com/ucffool/amazon-sales-rank-data-for-print-and-kindle-books#ranks_norm.zip


-END-

专 · 知


人工智能领域26个主题知识资料全集获取

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知

登录查看更多
13

相关内容

Kindle 是亚马逊公司( Amazon.com)推出的一个系列的电子阅读器。当前的产品线包括 Kindle keyboard、Kindle Touch、Kindle Paperwhite、Kindle Voyage、Kindle Fire 及 Kindle Fire HD。
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
179+阅读 · 2020年1月1日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
187+阅读 · 2019年12月28日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
一文教你构建图书推荐系统【附代码】
机器学习算法与Python学习
10+阅读 · 2018年9月16日
已删除
AI科技评论
4+阅读 · 2018年8月12日
2018年最佳深度学习书单
云栖社区
7+阅读 · 2018年3月11日
7本最佳深度学习书籍,总有一本适合你
人工智能头条
6+阅读 · 2018年3月9日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Python 书单:从入门到……
Linux中国
39+阅读 · 2017年8月6日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关VIP内容
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
179+阅读 · 2020年1月1日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
187+阅读 · 2019年12月28日
相关资讯
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
一文教你构建图书推荐系统【附代码】
机器学习算法与Python学习
10+阅读 · 2018年9月16日
已删除
AI科技评论
4+阅读 · 2018年8月12日
2018年最佳深度学习书单
云栖社区
7+阅读 · 2018年3月11日
7本最佳深度学习书籍,总有一本适合你
人工智能头条
6+阅读 · 2018年3月9日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Python 书单:从入门到……
Linux中国
39+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员