Python网络爬虫与信息抽取笔记07 Beautiful Soup库

2018 年 5 月 8 日 专知 Yukun

【导读】我们在上一节的内容中已经为大家对爬虫实践进行讨论,这一节将初步学习Beautiful Soup库。本文内容讨论了Beautiful Soup库的四个内容:Beautiful Soup库安装、查看网页源代码,BeautifulSoup库查看网页源代码以及BeautifulSoup库的基本元素。话不多说,让我们一起学习这些内容吧。


春节充电系列:李宏毅2017机器学习课程学习全部笔记


Python网络爬虫与信息抽取笔记01 课程框架和Python IDE工具

Python网络爬虫与信息抽取笔记02 requests库入门

Python网络爬虫与信息抽取笔记03 HTTP协议介绍

Python网络爬虫与信息抽取笔记04 Robots协议

Python网络爬虫与信息抽取笔记05 爬虫实战1

Python网络爬虫与信息抽取笔记06 爬虫实战2


视频网址:

https://www.bilibili.com/video/av9784617?from=search&seid=240663710546169136

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001


Python网络爬虫与信息抽取07 Beautiful Soup库

 

1.Beautiful Soup库安装




使用Beautiful Soup库需要先安装Beautiful Soup库


如果你想详细了解Beautiful Soup库,可以登其官方网站详细了解。

https://www.crummy.com/software/BeautifulSoup/



其实安装Beautiful Soup库只需要一个指令就行了:pip install beautifulsoup4



2.查看网页源代码




我们用http://python123.io/ws/demo.html进行测试


这个网站的源代码如图所示



其实看网站的源代码很容易,鼠标放在网页页面,点击鼠标右键,然后点击查看源代码

我们就会看到网站源码


可以用r.text查看源码内容


3.BeautifulSoup库查看网页源代码





用指令from bs4 import BeautifulSoup导入beautiful soup库

然后用指令soup=BeautifulSoup(demo,”html.parser”)制作soup.


我们可以用print(soup.prettify())指令查看网页源代码的结构内容



4.Beautiful Soup库基本元素




接下来介绍Beautiful Soup库的基本元素


Beautiful Soup库实际上是一个对“标签树”进行各种操作的功能库,其目的是为了简化操作、充分利用“标签树”的信息



标签的成分有名称name与属性attribute,注意名称name是前后成对出现



对于Beautiful Soup库的引用,使用指令from bs4 import BeautifulSoup,注意BeautifulSoup bs4里面的一个类


一个BeautifulSoup类对应一个标签树


Beautiful Soup库解析器有四个,其中第一个解析器最为常用



Beautiful Soup类的基本元素有五个,下面表格有详细介绍


回到之前的测试网站



我们用soup.title可以查看html的标题标签内容



用soup.a可以查看.a标签内容也就是链接标签内容


soup.a.parent.name查看其父标签名字


tag.attrs指令看其属性


我们可以发现其是一个字典,可以用字典的方式对每一个属性做信息的提取


soup.p.string可以查看标签的字符串


下图b标签里面是注释,注意注释的结构 <!—


参考链接:

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001

 更多教程资料请访问:人工智能知识资料全集

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群

【专知AI服务计划】专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取

[点击上面图片加入会员]

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知

登录查看更多
1

相关内容

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
实战 | 用Python做图像处理(三)
七月在线实验室
15+阅读 · 2018年5月29日
Python 爬虫实践:《战狼2》豆瓣影评分析
数据库开发
5+阅读 · 2018年3月19日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
使用 Python 绘制《星战》词云
Datartisan数据工匠
3+阅读 · 2017年8月31日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
Arxiv
38+阅读 · 2020年3月10日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
4+阅读 · 2018年5月14日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
相关资讯
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
实战 | 用Python做图像处理(三)
七月在线实验室
15+阅读 · 2018年5月29日
Python 爬虫实践:《战狼2》豆瓣影评分析
数据库开发
5+阅读 · 2018年3月19日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
使用 Python 绘制《星战》词云
Datartisan数据工匠
3+阅读 · 2017年8月31日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
Top
微信扫码咨询专知VIP会员