Python网络爬虫与信息抽取笔记04 Robots协议

2018 年 5 月 3 日 专知 Yukun

【导读】我们在上一节的内容中已经为大家对HTTP协议进行讨论,这一节将主要讨论Robots协议。本文内容涉及Robots协议的若干主要问题:爬虫引发的问题,网络爬虫的限制方法,Robots协议以及对于Robots协议的理解。话不多说,让我们一起学习这些内容吧。


春节充电系列:李宏毅2017机器学习课程学习全部笔记


Python网络爬虫与信息抽取笔记01 课程框架和Python IDE工具

Python网络爬虫与信息抽取笔记02 requests库入门

Python网络爬虫与信息抽取笔记03 HTTP协议介绍


视频网址:

https://www.bilibili.com/video/av9784617?from=search&seid=240663710546169136

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001


Python网络爬虫与信息抽取04 Robots协议

 

1.爬虫引发的问题




网络爬虫能给人们提供很多便利,但同样网络爬虫会引发很多问题


根据网络爬虫的尺寸大致可以分为三种规模,我们使用的爬虫是小规模或者中规模

 

每种规模都有其对应的工具


如果好多网络爬虫一起爬取数据,会给服务器巨大的资源开销


而且会带来知识产权的风险


还会涉及隐私的问题


所以网络爬虫的问题可以大致概括为三个问题


2.网络爬虫的限制方法




对于服务器来说,必须对网络爬虫有所限制,一个方法是来源审查,另一个是发布公告


重点讲robots协议,robots协议告诉我们哪些页面能爬,哪些页面不能爬取


3.Robots协议





例如查看京东的robots协议,我们可以看其内容


Robots协议基本语法简单

 

可以打开其他网站,看看其Robots协议


我们在爬取一个网站前,应该能先看其robots协议


4.对于Robots协议的理解




对于网站的robots的协议,遵不遵守应该视情况而定


因为网站是为人服务的,总的来说,类人行为可以不参考robots协议

参考链接:

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001


 更多教程资料请访问:人工智能知识资料全集

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群

【专知AI服务计划】专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取

[点击上面图片加入会员]

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知

登录查看更多
2

相关内容

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径。
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
算法与数据结构Python,369页pdf
专知会员服务
161+阅读 · 2020年3月4日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
【资源】Blockchain 区块链中文资源阅读列表
【资源】知识图谱本体构建论文合集
专知
61+阅读 · 2019年10月9日
渗透某德棋牌游戏
黑白之道
12+阅读 · 2019年5月17日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
181页机器学习Python介绍书籍pdf下载
专知
17+阅读 · 2018年8月11日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
VIP会员
相关VIP内容
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
算法与数据结构Python,369页pdf
专知会员服务
161+阅读 · 2020年3月4日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
相关资讯
【资源】Blockchain 区块链中文资源阅读列表
【资源】知识图谱本体构建论文合集
专知
61+阅读 · 2019年10月9日
渗透某德棋牌游戏
黑白之道
12+阅读 · 2019年5月17日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
181页机器学习Python介绍书籍pdf下载
专知
17+阅读 · 2018年8月11日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
Top
微信扫码咨询专知VIP会员