【导读】我们在上一节的内容中已经为大家对爬虫实践进行讨论,这一节将初步学习Beautiful Soup库。本文内容讨论了Beautiful Soup库的四个内容:Beautiful Soup库安装、查看网页源代码,BeautifulSoup库查看网页源代码以及BeautifulSoup库的基本元素。话不多说,让我们一起学习这些内容吧。
Python网络爬虫与信息抽取笔记01 课程框架和Python IDE工具
Python网络爬虫与信息抽取笔记02 requests库入门
视频网址:
https://www.bilibili.com/video/av9784617?from=search&seid=240663710546169136
http://www.icourse163.org/course/BIT-1001870001?tid=1001962001
Python网络爬虫与信息抽取07 Beautiful Soup库
1.Beautiful Soup库安装
使用Beautiful Soup库需要先安装Beautiful Soup库
如果你想详细了解Beautiful Soup库,可以登其官方网站详细了解。
https://www.crummy.com/software/BeautifulSoup/
其实安装Beautiful Soup库只需要一个指令就行了:pip install beautifulsoup4
2.查看网页源代码
这个网站的源代码如图所示
其实看网站的源代码很容易,鼠标放在网页页面,点击鼠标右键,然后点击查看源代码
我们就会看到网站源码
可以用r.text查看源码内容
3.BeautifulSoup库查看网页源代码
用指令from bs4 import BeautifulSoup导入beautiful soup库
然后用指令soup=BeautifulSoup(demo,”html.parser”)制作soup.
我们可以用print(soup.prettify())指令查看网页源代码的结构内容
4.Beautiful Soup库基本元素
Beautiful Soup库实际上是一个对“标签树”进行各种操作的功能库,其目的是为了简化操作、充分利用“标签树”的信息
标签的成分有名称name与属性attribute,注意名称name是前后成对出现
对于Beautiful Soup库的引用,使用指令from bs4 import BeautifulSoup,注意BeautifulSoup 是bs4里面的一个类
一个BeautifulSoup类对应一个标签树
Beautiful Soup库解析器有四个,其中第一个解析器最为常用
Beautiful Soup类的基本元素有五个,下面表格有详细介绍
回到之前的测试网站
我们用soup.title可以查看html的标题标签内容
用soup.a可以查看.a标签内容也就是链接标签内容
soup.a.parent.name查看其父标签名字
tag.attrs指令看其属性
我们可以发现其是一个字典,可以用字典的方式对每一个属性做信息的提取
用soup.p.string可以查看标签的字符串
下图b标签里面是注释,注意注释的结构 <!—
参考链接:
http://www.icourse163.org/course/BIT-1001870001?tid=1001962001
更多教程资料请访问:人工智能知识资料全集
-END-
专 · 知
人工智能领域主题知识资料查看与加入专知人工智能服务群:
【专知AI服务计划】专知AI知识技术服务会员群加入与人工智能领域26个主题知识资料全集获取
[点击上面图片加入会员]
请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!
请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~
请关注专知公众号,获取人工智能的专业知识!
点击“阅读原文”,使用专知