【导读】近日,Mario Lurig开源了一份亚马逊纸质书及Kindle电子书销售排行的数据集。包含61000本书、2亿数据点、从2017年1月1日开始到2018年6月29日的图书销售排行数据。
Amazon sales rank data for print and kindle books
61,000 unique ASINs and 200,000,000 salesrank data points.
简介
Mario Lurig: 近十年来,我一直在为通过亚马逊在全球范围内发表文章的作者收集salesrank。这些数据每小时收集一次,每24小时一次。一年中收集了GB级数据。多年来,我一直使用销售额变化来估计作者的销售量#,这是由于排名数据作为主要来源的固有缺陷,对于低销量的卖家来说,要比高销量的卖家要好得多。不可靠的数据收集会使情况加剧。
新数据集最早的数据从2017年1月1日开始,最新的数据到2018年6月29日。在61000+本独特的书籍中,Kindle版和纸质版之间大约是50/50的比例。这一点至关重要,亚马逊的销售排名按图书分类分为这两类。因此,数据集中可以有两本书同时拥有相同的销售排名(其中一个在Kindle组,另一个在图书组)。
在数据集中,有一小部分书籍,具有更一致的销售排名集合,特别是他们有小时销售排名集合。*(未来的目标:只提供这些ASINs的.zip文件)。这些标题由NovelRank Pro用户跟踪,对其跟踪没有任何限制。一段时间不卖的图书会将跟踪时间限制为每24小时降低一次,直到检测到销售排名下降为止,因此大多数数据收集时间戳的可变性也会受到影响。
最后,当salesrank没有改变时,NovelRank不记录它。 换句话说,拿上面提到的每小时检查的书籍,如果销售额没有变化,那么由于这个细节,数据点之间可能会有2小时或更长时间的差距。 这对于保持非常好的排名的书籍以及排名非常低的图书的书籍来说也是如此。
*亚马逊每小时更新一次销售排名。
数据集的一些缺陷:
在一个订单中购买一个标题(title)的多份副本(copis),就销售排名的提升而言,将算作一次销售。
由于销售而引起的销售排名变化可能会比实际销售延迟3到12个小时。
销售排名是该领域中的项目总数所独有的,而且由于这种情况不断变化,任何单一公式都不能代表一个很好的估计。例如,由于不同的group size,亚马逊(Amazon.com)上的Kindle版本图书的范围和变化程度将远远超过在amazon.it(意大利)上的印刷版图书。
数据集
amazon_com.csv
仅代表Amazon.com的全部图书信息:
ASIN是唯一的Amazon标识符。长10个字符,大写,字母和数字的混合,标识了数据文件名的第一部分。
GROUP要么是“书(book)”类,要么是“Kindle”类,按销售排名分为两类。
FORMAT是特定的书籍格式,小写。
2. rank.zip
文件名格式:{ASIN}_{TLD}.json
内容:ranks.zip 包含一个包含单个JSON文件的文件夹 ranks。 每个JSON文件都是UNIX时间戳(seconds since epoch)作为key,salesrank整数作为value。
注意: ranks.zip 包含 second accurate timing。如果你喜欢按小时调整时间戳,以便更容易地进行跨ASINs的比较,请下载 *ranks_norm.zip*。没必要同时用两个压缩文件。
3. ranks_norm.zip
文件名格式:{ASIN}_{TLD}.json
内容:ranks_norm.zip 包含一个包含单个JSON文件的文件夹 ranks_norm。 每个JSON文件都是UNIX时间戳(seconds since epoch)作为key,salesrank整数作为value。
注意: ranks_norm.zip 包含hour rounded timing。如果你喜欢second accurate timing,请下载 *ranks.zip*。没必要同时用两个压缩文件。
各项比例:
下载地址
https://www.kaggle.com/ucffool/amazon-sales-rank-data-for-print-and-kindle-books#ranks_norm.zip
-END-
专 · 知
请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!
请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~
请关注专知公众号,获取人工智能的专业知识!
点击“阅读原文”,使用专知