【R爬虫-2】上海市各小区挂牌均价 - 专知

会员服务 ·

0

【R爬虫-2】上海市各小区挂牌均价

2018 年 9 月 1 日 R语言中文社区

作者简介Introduction

傅兴：R语言中文社区专栏作者

个人公众号：Rapp

房价一直是中国老百姓最关心的话题之一。Rapp 也一直想分析房地产方面的数据。如果拿到全国的房价数据，不仅可以知道各个城市最贵的和最便宜的房子在哪里，哪些区域的房价更高，还可以研究房价和医疗、教育资源以及公共交通设施之间的关系，房价与政策之间的关系等等。

想要获取这样的数据并不难，只需要一点点编程知识。看完本文后就会觉得更加简单了，只需要安装Rapp开发的R程序包（lianjiaScraper），使用一个命令就可以轻松下载上海市各小区的挂牌均价。

下面我向大家介绍一下 lianjiaScraper 的开发过程以及使用方法：
1. 选择目标数据源，确定抓取的对象和范围。
经过一番比较，我选择了链家网 (http://sh.lianjia.com/xiaoqu) 的“小区”信息作为抓取的对象：

链家找到的27576个小区并不是列在一个页面中，所以我们还要弄清楚总共可以抓取多少页面，在小区列表的底部，我们看到一共有100个页面：

我们还发现每个页面的URL具有以下格式：
http://sh.lianjia.com/xiaoqu/d
调用每个页面的时候只需要在 d 后面加上页面序号即可。

2. 查看页面的HTML代码，找到需要抓取和解析的标签。

从页面的源代码中可以看到，页面中所有小区信息放在一个 <ul class="house-lst"></ul> 中，每个小区包含一个 <div class="pic-panel"></div> 和一个 <div class="info-panel">，我们感兴趣的信息在 <div class="info-panel"> 中的 <div class="where"></div> 和 <div class="price"></div> 中。

3. 用 rvest 写爬虫函数

4. 将爬虫函数以R软件包的形式发布，源代码上传至 Github (https://github.com/bioxfu/lianjiaScraper)

5. 安装 lianjiaScraper 的方法见README

6. 安装完毕，测试

7. 抓取到的数据包含了小区名称、区域名称、板块名称、单价以及经纬度信息

8. lianjiaScraper 现在仍处在开发阶段，目前只有一个 searchLianjia 函数，而且只能下载上海市的数据，我会不断完善相关功能：

房价数据到手后如何分析和可视化？请听下回分解。

大家都在看

2017年R语言发展报告（国内）

精心整理 | R语言中文社区历史文章合集（作者篇）

精心整理 | R语言中文社区历史文章整理（类型篇）

公众号后台回复关键字即可学习

回复爬虫         爬虫三大案例实战
回复 Python 1小时破冰入门

回复数据挖掘   R语言入门及数据挖掘
回复人工智能   三个月入门人工智能
回复数据分析师  数据分析师成长之路
回复机器学习      机器学习的商业应用
回复数据科学      数据科学实战
回复常用算法      常用数据挖掘算法

登录查看更多

0

相关内容

R语言

【ICML2020】图神经网络谱聚类

专知会员服务

43+阅读 · 2020年7月7日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知会员服务

91+阅读 · 2020年6月2日

【MIT】Yufei Zhao《图论与加法组合学》，177页pdf

【MIT】Yufei Zhao《图论与加法组合学》，177页pdf

专知会员服务

51+阅读 · 2020年4月27日

【UIUC-韩家炜等】最新《异构网络表示学习》2020综述论文大全，30+HNE方法，15页pdf111篇参考文献

【UIUC-韩家炜等】最新《异构网络表示学习》2020综述论文大全，30+HNE方法，15页pdf111篇参考文献

专知会员服务

98+阅读 · 2020年4月2日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知会员服务

110+阅读 · 2020年2月28日

广东疾控中心《新型冠状病毒感染防护》，65页pdf

广东疾控中心《新型冠状病毒感染防护》，65页pdf

专知会员服务

19+阅读 · 2020年1月26日

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

专知会员服务

59+阅读 · 2019年12月14日

【机器学习课程】Google机器学习速成课程

【机器学习课程】Google机器学习速成课程

专知会员服务

170+阅读 · 2019年12月2日

《人工智能安全标准化白皮书（2019版）》发布, 95页PDF，全国信息安全标准化技术委员会

《人工智能安全标准化白皮书（2019版）》发布, 95页PDF，全国信息安全标准化技术委员会

专知会员服务

98+阅读 · 2019年11月4日

2019年男性护肤消费趋势报告

2019年男性护肤消费趋势报告

行业研究报告

8+阅读 · 2019年9月30日

面向对象：等你来撩

面向对象：等你来撩

前端大全

5+阅读 · 2019年7月26日

文本分析与可视化

文本分析与可视化

Python程序员

9+阅读 · 2019年2月28日

Ceph的正确玩法之SSD作为HDD的缓存池

Ceph的正确玩法之SSD作为HDD的缓存池

炼数成金订阅号

5+阅读 · 2019年2月14日

DiscuzX 3.4 Phar反序列化漏洞

DiscuzX 3.4 Phar反序列化漏洞

黑客工具箱

8+阅读 · 2019年1月4日

比Selenium快100倍的方法爬东方财富网财务报表

比Selenium快100倍的方法爬东方财富网财务报表

程序人生

8+阅读 · 2018年10月31日

2018年7月份GitHub开源项目排行榜

2018年7月份GitHub开源项目排行榜

算法与数据结构

15+阅读 · 2018年8月3日

shiny动态仪表盘应用 | 中国世界自然文化遗产可视化案例

shiny动态仪表盘应用 | 中国世界自然文化遗产可视化案例

R语言中文社区

10+阅读 · 2017年11月29日

【python 自然语言处理】对胡歌【猎场】电视剧评论进行情感值分析

【python 自然语言处理】对胡歌【猎场】电视剧评论进行情感值分析

数据挖掘入门与实战

4+阅读 · 2017年11月27日

【宁波站】网络爬虫与文本挖掘

【宁波站】网络爬虫与文本挖掘

数萃大数据

5+阅读 · 2017年7月19日

AliCoCo: Alibaba E-commerce Cognitive Concept Net

AliCoCo: Alibaba E-commerce Cognitive Concept Net

Arxiv

13+阅读 · 2020年3月30日

The Consciousness Prior

Arxiv

4+阅读 · 2019年12月2日

Continual Unsupervised Representation Learning

Continual Unsupervised Representation Learning

Arxiv

7+阅读 · 2019年10月31日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

LadderNet: Multi-path networks based on U-Net for medical image segmentation

Arxiv

11+阅读 · 2019年4月1日

Single-frame Regularization for Temporally Stable CNNs

Single-frame Regularization for Temporally Stable CNNs

Arxiv

3+阅读 · 2019年2月27日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

A Survey of Learning Causality with Data: Problems and Methods

A Survey of Learning Causality with Data: Problems and Methods

Arxiv

19+阅读 · 2018年9月25日

Topic Modelling of Everyday Sexism Project Entries

Arxiv

3+阅读 · 2018年4月5日

Flipped-Adversarial AutoEncoders

Arxiv

6+阅读 · 2018年4月4日

VIP会员

相关主题

相关VIP内容

【ICML2020】图神经网络谱聚类

专知会员服务

43+阅读 · 2020年7月7日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知会员服务

91+阅读 · 2020年6月2日

【MIT】Yufei Zhao《图论与加法组合学》，177页pdf

【MIT】Yufei Zhao《图论与加法组合学》，177页pdf

专知会员服务

51+阅读 · 2020年4月27日

【UIUC-韩家炜等】最新《异构网络表示学习》2020综述论文大全，30+HNE方法，15页pdf111篇参考文献

【UIUC-韩家炜等】最新《异构网络表示学习》2020综述论文大全，30+HNE方法，15页pdf111篇参考文献

专知会员服务

98+阅读 · 2020年4月2日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知会员服务

110+阅读 · 2020年2月28日

广东疾控中心《新型冠状病毒感染防护》，65页pdf

广东疾控中心《新型冠状病毒感染防护》，65页pdf

专知会员服务

19+阅读 · 2020年1月26日

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

专知会员服务

59+阅读 · 2019年12月14日

【机器学习课程】Google机器学习速成课程

【机器学习课程】Google机器学习速成课程

专知会员服务

170+阅读 · 2019年12月2日

《人工智能安全标准化白皮书（2019版）》发布, 95页PDF，全国信息安全标准化技术委员会

《人工智能安全标准化白皮书（2019版）》发布, 95页PDF，全国信息安全标准化技术委员会

专知会员服务

98+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

数据要素发展报告(2025年)：附下载

人工智能代理提升战时舰船战备水平

【NeurIPS2025教程】大语言模型规划

NeurIPS 2025 教程：深度学习训练不稳定性的理论洞见

相关资讯

2019年男性护肤消费趋势报告

2019年男性护肤消费趋势报告

行业研究报告

8+阅读 · 2019年9月30日

面向对象：等你来撩

面向对象：等你来撩

前端大全

5+阅读 · 2019年7月26日

文本分析与可视化

文本分析与可视化

Python程序员

9+阅读 · 2019年2月28日

Ceph的正确玩法之SSD作为HDD的缓存池

Ceph的正确玩法之SSD作为HDD的缓存池

炼数成金订阅号

5+阅读 · 2019年2月14日

DiscuzX 3.4 Phar反序列化漏洞

DiscuzX 3.4 Phar反序列化漏洞

黑客工具箱

8+阅读 · 2019年1月4日

比Selenium快100倍的方法爬东方财富网财务报表

比Selenium快100倍的方法爬东方财富网财务报表

程序人生

8+阅读 · 2018年10月31日

2018年7月份GitHub开源项目排行榜

2018年7月份GitHub开源项目排行榜

算法与数据结构

15+阅读 · 2018年8月3日

shiny动态仪表盘应用 | 中国世界自然文化遗产可视化案例

shiny动态仪表盘应用 | 中国世界自然文化遗产可视化案例

R语言中文社区

10+阅读 · 2017年11月29日

【python 自然语言处理】对胡歌【猎场】电视剧评论进行情感值分析

【python 自然语言处理】对胡歌【猎场】电视剧评论进行情感值分析

数据挖掘入门与实战

4+阅读 · 2017年11月27日

【宁波站】网络爬虫与文本挖掘

【宁波站】网络爬虫与文本挖掘

数萃大数据

5+阅读 · 2017年7月19日

相关论文

AliCoCo: Alibaba E-commerce Cognitive Concept Net

AliCoCo: Alibaba E-commerce Cognitive Concept Net

Arxiv

13+阅读 · 2020年3月30日

The Consciousness Prior

Arxiv

4+阅读 · 2019年12月2日

Continual Unsupervised Representation Learning

Continual Unsupervised Representation Learning

Arxiv

7+阅读 · 2019年10月31日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

LadderNet: Multi-path networks based on U-Net for medical image segmentation

Arxiv

11+阅读 · 2019年4月1日

Single-frame Regularization for Temporally Stable CNNs

Single-frame Regularization for Temporally Stable CNNs

Arxiv

3+阅读 · 2019年2月27日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

A Survey of Learning Causality with Data: Problems and Methods

A Survey of Learning Causality with Data: Problems and Methods

Arxiv

19+阅读 · 2018年9月25日

Topic Modelling of Everyday Sexism Project Entries

Arxiv

3+阅读 · 2018年4月5日

Flipped-Adversarial AutoEncoders

Arxiv

6+阅读 · 2018年4月4日

大家都在搜

大型语言模型

生成式人工智能

无人机系统

蓝牙安全攻防

朱克爱德华兹家族

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员