Python网络爬虫与信息抽取笔记02 requests库入门

2018 年 4 月 26 日 专知 Yukun

【导读】自从上次春节充电系列:李宏毅机器学习笔记以来我们又见面了,因为在机器学习中数据集是很关键的东西,好的数据集可以给实验带来很好的结果,然而有时候数据集需要我们自己构造,这时候就需要爬虫来帮你建造数据集了。Python网络爬虫与信息提取笔记系列主要针对用Python在网上进行信息爬取,需要初步的Python基础,当然如果你不会python也没关系,可以在实战中学习。今天主要是课程准备工作的介绍,涉及课程框架、Python IDE工具和科学计算工具三部分内容。话不多说,让我们一起学习这些内容吧。


春节充电系列:李宏毅2017机器学习课程学习全部笔记


Python网络爬虫与信息抽取笔记01 课程框架和Python IDE工具


视频网址:

https://www.bilibili.com/video/av9784617?from=search&seid=240663710546169136


http://www.icourse163.org/course/BIT-1001870001?tid=1001962001


Python网络爬虫与信息抽取笔记02 requests库入门

 

1.课程框架




我们在上一节的内容中已经为大家介绍了python网络爬虫与信息抽取的简介,这一节将主要针对requests库入门进行讨论。本文内容涉及requests库的若干主要问题:了解并安装requests,requests的7个主要方法,Response对象的属性,requests库的异常以及爬取网页的通用代码框架。话不多说,让我们一起学习这些内容吧。


这周我们主要讲述一下三个内容

具体来说就是Requests库入门,网络爬虫的盗亦有道以及Requests库爬虫实例


1.了解并安装requests




我们可以先打开requests官网稍微了解一下requests库的内容

通过pip install requests的指令我们可以轻松安装requests库

我们先进行第一个实例,爬取百度网站的内容

得到的结果如下


2.requests的7个主要方法




如果你不懂这些指令什么意思没关系,下面就来一一讲解。

Requests库主要有7个方法

比如requests.get(url),url里面填的是你想访问的网址,返回的是服务器响应的信息

Requests.get的源代码如图所示

得到服务器的响应后我们可以对其进行分析


3.Response对象的属性



 

我们有5个指令可以分析服务器的响应,每个指令作用下图已经给出,需要补充的是,图片上的资源是以二进制存储的,这时候r.content就发挥作用了

根据r.status_code我们可以判断有没有得到服务器的正确响应,比如前段时间Acfun被封,如果当时你用requests.get()指令去得到Acfun的响应,并且输入r.status_code你就会得到404

输入r.text后,你会得到一大串字符串,如果你暂且看不懂没有关系,这其实是html代码,以后也会一一讲解

输入r.encoding和r.apparent_encoding你会发现返回的值不一样

其实两者是有差别的

总的来说,输入r.apparent_encoding是最稳妥的


4.requests库的异常




当然我们还需要处理服务器响应的异常

补充一点,Request.timeout指的获得url到获得内容的整个过程的超时异常,Connecttimeout仅指和服务器连接超时异常。

实际操作中,我们最常用的是r.raise_for_statue()


5.爬取网页的通用代码框架



 

根据这个,我们可以写出爬取网页的通用代码框架 

这样可以使得用户爬取网页更稳定更可靠


参考链接:

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001

-END-

专 · 知

人工智能领域主题知识资料查看获取专知订阅】人工智能知识资料全集与专知AI知识技术服务群

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

投稿&广告&商务合作:fangquanyi@gmail.com


点击“阅读原文”,使用专知

登录查看更多
1

相关内容

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径。
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
一份简短《图神经网络GNN》笔记,入门小册
专知会员服务
224+阅读 · 2020年4月11日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
113+阅读 · 2020年1月1日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
Python NLP入门教程
七月在线实验室
7+阅读 · 2018年6月5日
Python 爬虫实践:《战狼2》豆瓣影评分析
数据库开发
5+阅读 · 2018年3月19日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
Python NLP 入门教程
开源中国
14+阅读 · 2017年10月1日
【宁波站】网络爬虫与文本挖掘
数萃大数据
4+阅读 · 2017年7月19日
Arxiv
38+阅读 · 2020年3月10日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
6+阅读 · 2018年4月21日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
一份简短《图神经网络GNN》笔记,入门小册
专知会员服务
224+阅读 · 2020年4月11日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
113+阅读 · 2020年1月1日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
相关资讯
Python NLP入门教程
七月在线实验室
7+阅读 · 2018年6月5日
Python 爬虫实践:《战狼2》豆瓣影评分析
数据库开发
5+阅读 · 2018年3月19日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
Python NLP 入门教程
开源中国
14+阅读 · 2017年10月1日
【宁波站】网络爬虫与文本挖掘
数萃大数据
4+阅读 · 2017年7月19日
Top
微信扫码咨询专知VIP会员