R语言学习:爬取天猫纸尿裤商品数据并进行价格分析 ...

2017 年 8 月 6 日 R语言中文社区 花花_Angel

作者:花花_Angel

博客专栏:

https://ask.hellobi.com/blog/huahua

rvest是R语言一个用来做网页数据抓取的包,其中html_nodes()函数查找标签的功能非常好用。本文使用rvest包爬取天猫纸尿裤的商品数据并进行价格分析,爬取时间是2017年7月24日,数据虽不全面,可能存在一定程度的偏差,但仍可以为这一行业提供一些参考。

一、数据采集

1、天猫搜索框搜索关键字“拉拉裤”,按照销量降序排序,按下CTRL+SHIFT+C,当鼠标放到该宝贝页面的任何位置时,可以看到相应的源代码。宝贝的图片、价格、品牌名称、卖家以及月销量等数据都是包含在<div class="product-iWrap">...</div>块中。

2、启动Rstudio,使用rvest包抓取商品数据。其操作过程可参考无鱼二饼的文章《R语言学习:使用rvest包抓取网页数据》

数据爬取代码如下:




将爬取单页数据改成for循环语句爬取多个网页数据,在操作过程中,发现无法执行循环,总是无限爬取首页数据,搜索了解决办法,无果,所以只能一页一页的进行数据抓取,然后将所有数据汇总。

合并的数据代码如下:


抓取关键字“纸尿裤”、“纸尿片”商品数据过程与上面类似,不在赘述。

二、数据处理

保存后的CSV数据如下:



对itemTitle列的数据做分列处理,分离出品牌、包装规格和尺码,部分不规范的需要手动调整;对volume列的文字字符进行替换;将price除以包装规格得到单片价格perprice的新字段;对perprice进行分组处理得到新字段group;对缺失值和异常值进行删除处理。

处理后的数据如下:




三、数据分析

1、单片价的直方图和核密度图






2、单片价与销量关系图



3、尺码均价图和销量占比图





4、品牌销量和单品榜




5、品牌四象限图




纸尿裤和纸尿片的分析与拉拉裤类似,不在赘述

6、拉拉裤/纸尿裤/纸尿片单片价分布对比图



四、小结

对于纸尿裤市场三个品类的分析结论如下:

1、单片均价整体情况:拉拉裤1.48>纸尿裤1.22>纸尿片0.81

2、低价区间产品扎堆,趋于饱和,中高端价格区间存在一定市场潜力,有待开发

3、帮宝适、好奇等国际品牌主导市场


微信回复关键字即可学习

回复 R              R语言快速入门免费视频 
回复 统计          统计方法及其在R中的实现
回复 用户画像   民生银行客户画像搭建与应用 
回复 大数据      大数据系列免费视频教程
回复 可视化      利用R语言做数据可视化
回复 数据挖掘   数据挖掘算法原理解释与应用
回复 机器学习   R&Python机器学习入门 

登录查看更多
0

相关内容

【2020新书】实战R语言4,323页pdf
专知会员服务
102+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
198+阅读 · 2020年6月29日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
93+阅读 · 2020年6月28日
商业数据分析,39页ppt
专知会员服务
163+阅读 · 2020年6月2日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
164+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
122+阅读 · 2020年5月10日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
115+阅读 · 2020年5月9日
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
盘一盘 Python 系列特别篇 PyEcharts TreeMap
平均机器
17+阅读 · 2019年6月13日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
给程序员的10条建议,吐血推荐!
R语言中文社区
3+阅读 · 2017年12月21日
教你用Python爬虫股票评论,简单分析股民用户情绪
数据派THU
10+阅读 · 2017年12月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
利用python操作Excel教程
Python技术博文
4+阅读 · 2017年9月13日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
Arxiv
10+阅读 · 2020年4月5日
Arxiv
3+阅读 · 2018年4月5日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
102+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
198+阅读 · 2020年6月29日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
93+阅读 · 2020年6月28日
商业数据分析,39页ppt
专知会员服务
163+阅读 · 2020年6月2日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
164+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
122+阅读 · 2020年5月10日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
115+阅读 · 2020年5月9日
相关资讯
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
盘一盘 Python 系列特别篇 PyEcharts TreeMap
平均机器
17+阅读 · 2019年6月13日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
给程序员的10条建议,吐血推荐!
R语言中文社区
3+阅读 · 2017年12月21日
教你用Python爬虫股票评论,简单分析股民用户情绪
数据派THU
10+阅读 · 2017年12月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
利用python操作Excel教程
Python技术博文
4+阅读 · 2017年9月13日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员