如果编程是一种魔法,那么web抓取无疑是一种魔术。通过编写一个简单的自动化程序,您可以查询web服务器、请求数据并解析它以提取所需的信息。这本实用书籍的扩展版不仅介绍了web抓取,而且还提供了从现代web中抓取几乎所有类型数据的全面指南。
第1部分侧重于web抓取机制:使用Python从web服务器请求信息,执行服务器响应的基本处理,并以自动方式与站点交互。第2部分探索了各种更具体的工具和应用程序,以适应您可能遇到的任何web抓取场景。
解析复杂的HTML页面
使用Scrapy框架开发爬行器
学习存储您搜集的数据的方法
从文档中读取和提取数据
清理和规范化格式错误的数据
阅读和编写自然语言
浏览表单和登录
抓取JavaScript和爬过api
使用和编写图像到文本的软件
避免抓取陷阱和机器人拦截器
使用抓取工具来测试你的网站
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“爬虫” 可以获取《【实用书】Python爬虫Web抓取数据,第二版,306页pdf》专知下载链接索引