Python网络爬虫与信息抽取笔记02 HTTP协议介绍

2018 年 5 月 1 日 专知

【导读】我们在上一节的内容中已经为大家针对requests库入门进行讨论,这一节将主要讨论HTTP协议。本文内容涉及HTTP协议的若干主要问题:HTTP协议介绍,URL格式,HTTP协议对资源的操作以及Requests库7个主要方法详解。话不多说,让我们一起学习这些内容吧。


春节充电系列:李宏毅2017机器学习课程学习全部笔记


Python网络爬虫与信息抽取笔记01 课程框架和Python IDE工具

Python网络爬虫与信息抽取笔记02 requests库入门


视频网址:

https://www.bilibili.com/video/av9784617?from=search&seid=240663710546169136

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001


Python网络爬虫与信息抽取03 HTTP协议

 

1.HTTP协议介绍




HTTP协议是浏览器上的超文本传输协议,是基于“请求与响应”、无状态的应用层协议,所谓无状态指的第一次请求和第二次请求没有关联。


2.URL格式




HTTP中的URL链接有固定格式,host、port和path都有其各自代表的内容。


下面是HTTP几个URL的例子,感觉URL链接和指针挺像的。


3.HTTP协议对资源的操作




HTTP协议有6种方法对URL资源可以操作。


其中get,head是获取资源,put,post,patch以及delete是操纵资源

 


 注意patch和put是有区别的,patch可以局部修改,put要一次性全部修改


其实HTTP协议和Requests库中的方法功能有着对应关系


requests.head()可以得到服务器返回响应的头部信息


requests.post()为向URL位置后的资源附加新的数据。该数据如果是字典,自动编码为form


该数据如果为字符串,编码为data


requests.put() 功能则是请求向URL位置存储一个资源,覆盖原URL位置的资源


4.Requests库7个主要方法详解




Requests库的函数功能就对应着HTTP相应的方法


requests.request()是支撑各种方法的基础方法


可以用requests.request实现各种功能


Params是url的参数


Data则是传递的字典、字节序列或者文件对象,Data是提供的键值对不放在url链接里,而是放在url链接对应的位置作为数据来存储


json则传递JSON格式的数据,这个数据复制到服务器的json上              


Headers则是HTTP定制头


Cookie和auth,值得注意的是auth是元组类型,支持HTTP认证功能


files代表传输的文件,可以给某一个链接提交一个文件


Timeout用来设置超时时间


Proxies设定代理服务器

一个是http的代理,在这个代理中我们可以增加用户名和密码的设置

另一个是https的服务器,在访问百度时所使用的ip地址就是代理服务器的ip地址

还有其他参数,由于用的很少就不一一细讲了


requests.get()函数的格式


requests.head函数的格式


requests.post函数的格式


requests.put函数的格式


requests.patch函数的格式


requests.delete函数的格式


在http协议中,向url提交资源的功能在服务器上是严格受控的,有很大的安全问题。

所以用的最多的是get。


参考链接:

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001

 更多教程资料请访问:人工智能知识资料全集

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群

【专知AI服务计划】专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取

[点击上面图片加入会员]

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知


登录查看更多
1

相关内容

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
吐血整理!140种Python标准库、第三方库和外部工具都有了
炼数成金订阅号
14+阅读 · 2019年7月30日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
推荐一些适合小白练手的Python项目
数据挖掘入门与实战
6+阅读 · 2018年5月17日
干货 | 自然语言处理(5)之英文文本挖掘预处理流程
机器学习算法与Python学习
7+阅读 · 2018年4月5日
浅谈浏览器 http 的缓存机制
前端大全
6+阅读 · 2018年1月21日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
A Survey on Edge Intelligence
Arxiv
50+阅读 · 2020年3月26日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月21日
VIP会员
相关VIP内容
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
相关资讯
吐血整理!140种Python标准库、第三方库和外部工具都有了
炼数成金订阅号
14+阅读 · 2019年7月30日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
推荐一些适合小白练手的Python项目
数据挖掘入门与实战
6+阅读 · 2018年5月17日
干货 | 自然语言处理(5)之英文文本挖掘预处理流程
机器学习算法与Python学习
7+阅读 · 2018年4月5日
浅谈浏览器 http 的缓存机制
前端大全
6+阅读 · 2018年1月21日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
相关论文
Top
微信扫码咨询专知VIP会员