Python网络爬虫与信息抽取笔记07 Beautiful Soup库

2018 年 5 月 8 日 专知 Yukun

【导读】我们在上一节的内容中已经为大家对爬虫实践进行讨论，这一节将初步学习Beautiful Soup库。本文内容讨论了Beautiful Soup库的四个内容：Beautiful Soup库安装、查看网页源代码，BeautifulSoup库查看网页源代码以及BeautifulSoup库的基本元素。话不多说，让我们一起学习这些内容吧。

春节充电系列：李宏毅2017机器学习课程学习全部笔记

Python网络爬虫与信息抽取笔记01 课程框架和Python IDE工具

Python网络爬虫与信息抽取笔记02 requests库入门

Python网络爬虫与信息抽取笔记03 HTTP协议介绍

Python网络爬虫与信息抽取笔记04 Robots协议

Python网络爬虫与信息抽取笔记05 爬虫实战1

Python网络爬虫与信息抽取笔记06 爬虫实战2

视频网址：

https://www.bilibili.com/video/av9784617?from=search&seid=240663710546169136

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001

Python网络爬虫与信息抽取07 Beautiful Soup库

1.Beautiful Soup库安装

使用Beautiful Soup库需要先安装Beautiful Soup库

如果你想详细了解Beautiful Soup库，可以登其官方网站详细了解。

https://www.crummy.com/software/BeautifulSoup/

其实安装Beautiful Soup库只需要一个指令就行了：pip install beautifulsoup4

2.查看网页源代码

我们用http://python123.io/ws/demo.html进行测试

这个网站的源代码如图所示

其实看网站的源代码很容易，鼠标放在网页页面，点击鼠标右键，然后点击查看源代码

我们就会看到网站源码

可以用r.text查看源码内容

3.BeautifulSoup库查看网页源代码

用指令from bs4 import BeautifulSoup导入beautiful soup库

然后用指令soup=BeautifulSoup(demo,”html.parser”)制作soup.

我们可以用print(soup.prettify())指令查看网页源代码的结构内容

4.Beautiful Soup库基本元素

接下来介绍Beautiful Soup库的基本元素

Beautiful Soup库实际上是一个对“标签树”进行各种操作的功能库，其目的是为了简化操作、充分利用“标签树”的信息

标签的成分有名称name与属性attribute，注意名称name是前后成对出现

对于Beautiful Soup库的引用，使用指令from bs4 import BeautifulSoup，注意BeautifulSoup 是bs4里面的一个类

一个BeautifulSoup类对应一个标签树

Beautiful Soup库解析器有四个，其中第一个解析器最为常用

Beautiful Soup类的基本元素有五个，下面表格有详细介绍

回到之前的测试网站

我们用soup.title可以查看html的标题标签内容

用soup.a可以查看.a标签内容也就是链接标签内容

soup.a.parent.name查看其父标签名字

tag.attrs指令看其属性

我们可以发现其是一个字典，可以用字典的方式对每一个属性做信息的提取

用soup.p.string可以查看标签的字符串

下图b标签里面是注释,注意注释的结构 <!—

参考链接：

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001

更多教程资料请访问：人工智能知识资料全集

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群：

【专知AI服务计划】专知AI知识技术服务会员群加入与人工智能领域26个主题知识资料全集获取

[点击上面图片加入会员]

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请加专知小助手微信（扫一扫如下二维码添加），加入专知主题群（请备注主题类型：AI、NLP、CV、 KG等）交流~

请关注专知公众号，获取人工智能的专业知识！

点击“阅读原文”，使用专知

登录查看更多

相关内容

知识抽取

关注 21

知识抽取，即从不同来源、不同结构的数据中进行知识提取，形成知识(结构化数据)存入到知识图谱。

【2020新书】实战R语言4，323页pdf

专知会员服务

102+阅读 · 2020年7月1日

【实用书】学习用Python编写代码进行数据分析，103页pdf

专知会员服务

198+阅读 · 2020年6月29日

一份简明有趣的Python学习教程，42页pdf

专知会员服务

77+阅读 · 2020年6月22日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【干货书】Python 3专业开发指南，468页pdf，Pro Python 3, 3rd Edition

专知会员服务

242+阅读 · 2020年4月1日

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

专知会员服务

220+阅读 · 2020年3月29日

普渡大学2020硬核课程《鲁棒机器学习理论》课件与笔记，38讲173页pdf

专知会员服务

180+阅读 · 2020年3月28日

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

专知会员服务

276+阅读 · 2020年2月13日

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

专知会员服务

35+阅读 · 2020年1月6日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

手把手教你用R语言制作网络爬虫机器人（一）

R语言中文社区

4+阅读 · 2019年1月26日

Python用法速查网站

Python程序员

17+阅读 · 2018年12月16日

我是一个爬虫

码农翻身

12+阅读 · 2018年6月4日

实战 | 用Python做图像处理（三）

七月在线实验室

15+阅读 · 2018年5月29日

Python网络爬虫与信息抽取笔记08 标签树的遍历

专知

3+阅读 · 2018年5月10日

Python 爬虫实践：《战狼2》豆瓣影评分析

数据库开发

5+阅读 · 2018年3月19日

自然语言处理(4)之中文文本挖掘流程详解（小白入门必读）

机器学习算法与Python学习

5+阅读 · 2017年12月22日

Python3爬虫之入门和正则表达式

全球人工智能

7+阅读 · 2017年10月9日

使用 Python 绘制《星战》词云

Datartisan数据工匠

3+阅读 · 2017年8月31日

【宁波站】网络爬虫与文本挖掘

数萃大数据

5+阅读 · 2017年7月19日

A Survey of Adversarial Learning on Graphs

Arxiv

38+阅读 · 2020年3月10日

Efficiently Embedding Dynamic Knowledge Graphs

Arxiv

14+阅读 · 2019年10月15日

QA4IE: A Question Answering based Framework for Information Extraction

Arxiv

4+阅读 · 2019年1月28日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月28日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Generating Realistic Geology Conditioned on Physical Measurements with Generative Adversarial Networks

Arxiv

6+阅读 · 2018年7月5日

Did the Model Understand the Question?

Arxiv

4+阅读 · 2018年5月14日

Simple and Effective Semi-Supervised Question Answering

Arxiv

5+阅读 · 2018年4月2日

A Study of Recent Contributions on Information Extraction

Arxiv

6+阅读 · 2018年3月15日

What Level of Quality can Neural Machine Translation Attain on Literary Text?

Arxiv

5+阅读 · 2018年1月15日

VIP会员