如何用 Python 快速抓取 Google 搜索？ - 专知

会员服务 ·

0

如何用 Python 快速抓取 Google 搜索？

2020 年 1 月 7 日 CSDN

本文是通过 requests 和 Beautiful Soup 抓取 Google 搜索的快速指南。

作者 | linksc

译者 | 弯月，责编 | 郭芮

出品 | CSDN（ID：CSDNnews）

以下为译文：

自从2011年 Google Web Search API 被弃用以来，我一直在寻找其他的方法来抓取Google。我需要一种方法，让我的 Python 脚本从 Google 搜索中获取链接。于是，我自己想出了一种方法，而本文正是通过 requests 和 Beautiful Soup 抓取 Google 搜索的快速指南。

首先，让我们来安装一些依赖项。请将以下内容保存成文本文件 requirements.txt：

requests
bs4

接下来，运行 pip install -r requirements.txt 命令来安装依赖项。然后将其导入到你的脚本中。

import urllib
import requests
from bs4 import BeautifulSoup

为了执行搜索，你需要在URL中为 Google 提供查询参数。此外，所有空格都必须用+代替。为了构建URL，我们需要设置正确的查询格式，并其放入q参数中。

query = "hackernoon How To Scrape Google With Python"
query = query.replace(' ', '+')
URL = f"https://google.com/search?q={query}"

Google 会针对移动设备和台式机返回不同的搜索结果。因此，我们需要指定适当的用户代理。

# desktop user-agent
USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:65.0) Gecko/20100101 Firefox/65.0"
# mobile user-agent
MOBILE_USER_AGENT = "Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36"

发送请求很简单。但是，requests需要将 user-agent 放在请求的头部。为了设置正确的头部，我们必须传给headers一个字典。

headers = {"user-agent" : MOBILE_USER_AGENT}
resp = requests.get(URL, headers=headers)

接下来，我们需要检查请求是否成功。最简单的方法是检查状态码。如果返回200，则表示成功。然后，我们需要将其放入 Beautiful Soup 中以解析内容。

if resp.status_code == 200:
    soup = BeautifulSoup(resp.content, "html.parser")

接下来是解析数据，并从页面提取所有的链接。我们可以利用 Beautiful Soup 简单地完成这项工作。在便利每个链接时，我们需要将结果存储到一个列表中。

results = []
for g in soup.find_all('div', class_='r'):
    anchors = g.find_all('a')
    if anchors:
        link = anchors[0]['href']
        title = g.find('h3').text
        item = {
            "title": title,
            "link": link
        }
        results.append(item)
print(results)

这样就可以了。这个脚本非常简单，而且容易出错。但至少它能带你入门，从此你就可以编写自己的 Google 爬虫了。你可以从 GitHub上下载整个脚本，地址是：https://github.com/getlinksc/scrape_google。

原文：https://hackernoon.com/how-to-scrape-google-with-python-bo7d2tal

本文为 CSDN 翻译，转载请注明来源出处。

热文 推荐

☞ 支付宝解释 2019 年账单总额较高；腾讯 QQ 回应新功能可显示对方实时电量；Python 2.7 结束支持 | 极客头条

☞ IDEA 社区版不支持 Tomcat？一招完美解决！

☞ 达摩院 2020 预测：感知智能的“天花板”和认知智能的“野望”

☞ 微软斥资 260 亿美元收购了 LinkedIn 后却无所作为？

☞中国程序员在美遭抢劫电脑遇害，数百人悼念

☞2019，不可错过的NLP“高光时刻”

☞详解CPU几个重点基础知识

☞在以太坊上开发 Dapp 的瓶颈和门槛有哪些？| 博文精选

你点的每个“在看”，我都认真当成了喜欢

登录查看更多

0

相关内容

Google 搜索

Google Search 是谷歌公司（Google）的一个网络搜索引擎服务。

一份简明有趣的Python学习教程，42页pdf

一份简明有趣的Python学习教程，42页pdf

专知会员服务

77+阅读 · 2020年6月22日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

219+阅读 · 2020年6月14日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【2020新书】《“一行”Python：如何写出精炼的Python代码》，216页pdf

【2020新书】《“一行”Python：如何写出精炼的Python代码》，216页pdf

专知会员服务

252+阅读 · 2020年4月19日

【Google】微型化机器学习教程，17页ppt，Getting Started with TinyML

【Google】微型化机器学习教程，17页ppt，Getting Started with TinyML

专知会员服务

71+阅读 · 2020年3月28日

【2020新书】使用Google Dialogflow构建虚拟助手对话机器人，201页pdf

【2020新书】使用Google Dialogflow构建虚拟助手对话机器人，201页pdf

专知会员服务

72+阅读 · 2020年3月19日

【资源】100+本免费数据科学书

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

专知会员服务

35+阅读 · 2020年1月6日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

Keras作者François Chollet推荐的开源图像搜索引擎项目Sis

Keras作者François Chollet推荐的开源图像搜索引擎项目Sis

专知会员服务

30+阅读 · 2019年10月17日

微软VS Code已原生支持Jupyter笔记本，再也不用打开网页调试运行了

微软VS Code已原生支持Jupyter笔记本，再也不用打开网页调试运行了

量子位

14+阅读 · 2019年10月22日

如何编写完美的 Python 命令行程序？

如何编写完美的 Python 命令行程序？

CSDN

5+阅读 · 2019年1月19日

Python | Jupyter导出PDF，自定义脚本告别G安装包

Python | Jupyter导出PDF，自定义脚本告别G安装包

程序人生

7+阅读 · 2018年7月17日

抖音 Python 机器人，论如何在抖音上找到漂亮小姐姐

抖音 Python 机器人，论如何在抖音上找到漂亮小姐姐

程序人生

5+阅读 · 2018年5月31日

Python 爬虫实践：《战狼2》豆瓣影评分析

Python 爬虫实践：《战狼2》豆瓣影评分析

数据库开发

5+阅读 · 2018年3月19日

如何运用Python建一个聊天机器人？

如何运用Python建一个聊天机器人？

七月在线实验室

17+阅读 · 2018年1月23日

教你用Python来玩跳一跳

教你用Python来玩跳一跳

七月在线实验室

6+阅读 · 2018年1月2日

Python NLP入门教程

Python NLP入门教程

Python开发者

9+阅读 · 2017年11月19日

Python NLP 入门教程

Python NLP 入门教程

大数据技术

20+阅读 · 2017年10月24日

Python3爬虫之入门和正则表达式

Python3爬虫之入门和正则表达式

全球人工智能

7+阅读 · 2017年10月9日

A Survey on Distributed Machine Learning

Arxiv

45+阅读 · 2019年12月20日

A Survey on Edge Computing Systems and Tools

Arxiv

35+阅读 · 2019年11月7日

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

Arxiv

10+阅读 · 2019年9月4日

Automatic Summarization of Natural Language

Arxiv

3+阅读 · 2018年12月18日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

A Survey on Deep Transfer Learning

A Survey on Deep Transfer Learning

Arxiv

11+阅读 · 2018年8月6日

Learning Visual Question Answering by Bootstrapping Hard Attention

Learning Visual Question Answering by Bootstrapping Hard Attention

Arxiv

4+阅读 · 2018年8月1日

Zero-Shot Sketch-Image Hashing

Arxiv

5+阅读 · 2018年3月6日

Parameter Space Noise for Exploration

Arxiv

3+阅读 · 2018年1月31日

Adversarial Learning for Chinese NER from Crowd Annotations

Arxiv

15+阅读 · 2018年1月16日

VIP会员

相关主题

相关VIP内容

一份简明有趣的Python学习教程，42页pdf

一份简明有趣的Python学习教程，42页pdf

专知会员服务

77+阅读 · 2020年6月22日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

219+阅读 · 2020年6月14日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【2020新书】《“一行”Python：如何写出精炼的Python代码》，216页pdf

【2020新书】《“一行”Python：如何写出精炼的Python代码》，216页pdf

专知会员服务

252+阅读 · 2020年4月19日

【Google】微型化机器学习教程，17页ppt，Getting Started with TinyML

【Google】微型化机器学习教程，17页ppt，Getting Started with TinyML

专知会员服务

71+阅读 · 2020年3月28日

【2020新书】使用Google Dialogflow构建虚拟助手对话机器人，201页pdf

【2020新书】使用Google Dialogflow构建虚拟助手对话机器人，201页pdf

专知会员服务

72+阅读 · 2020年3月19日

【资源】100+本免费数据科学书

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

专知会员服务

35+阅读 · 2020年1月6日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

Keras作者François Chollet推荐的开源图像搜索引擎项目Sis

Keras作者François Chollet推荐的开源图像搜索引擎项目Sis

专知会员服务

30+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】通过真实世界实践赋能机器人自主性

军用无人机集群技术尚未成熟——但潜力可期

人工智能安全治理白皮书（2025）

AgentOps综述：分类、挑战与未来方向

相关资讯

微软VS Code已原生支持Jupyter笔记本，再也不用打开网页调试运行了

微软VS Code已原生支持Jupyter笔记本，再也不用打开网页调试运行了

量子位

14+阅读 · 2019年10月22日

如何编写完美的 Python 命令行程序？

如何编写完美的 Python 命令行程序？

CSDN

5+阅读 · 2019年1月19日

Python | Jupyter导出PDF，自定义脚本告别G安装包

Python | Jupyter导出PDF，自定义脚本告别G安装包

程序人生

7+阅读 · 2018年7月17日

抖音 Python 机器人，论如何在抖音上找到漂亮小姐姐

抖音 Python 机器人，论如何在抖音上找到漂亮小姐姐

程序人生

5+阅读 · 2018年5月31日

Python 爬虫实践：《战狼2》豆瓣影评分析

Python 爬虫实践：《战狼2》豆瓣影评分析

数据库开发

5+阅读 · 2018年3月19日

如何运用Python建一个聊天机器人？

如何运用Python建一个聊天机器人？

七月在线实验室

17+阅读 · 2018年1月23日

教你用Python来玩跳一跳

教你用Python来玩跳一跳

七月在线实验室

6+阅读 · 2018年1月2日

Python NLP入门教程

Python NLP入门教程

Python开发者

9+阅读 · 2017年11月19日

Python NLP 入门教程

Python NLP 入门教程

大数据技术

20+阅读 · 2017年10月24日

Python3爬虫之入门和正则表达式

Python3爬虫之入门和正则表达式

全球人工智能

7+阅读 · 2017年10月9日

相关论文

A Survey on Distributed Machine Learning

Arxiv

45+阅读 · 2019年12月20日

A Survey on Edge Computing Systems and Tools

Arxiv

35+阅读 · 2019年11月7日

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

Arxiv

10+阅读 · 2019年9月4日

Automatic Summarization of Natural Language

Arxiv

3+阅读 · 2018年12月18日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

A Survey on Deep Transfer Learning

A Survey on Deep Transfer Learning

Arxiv

11+阅读 · 2018年8月6日

Learning Visual Question Answering by Bootstrapping Hard Attention

Learning Visual Question Answering by Bootstrapping Hard Attention

Arxiv

4+阅读 · 2018年8月1日

Zero-Shot Sketch-Image Hashing

Arxiv

5+阅读 · 2018年3月6日

Parameter Space Noise for Exploration

Arxiv

3+阅读 · 2018年1月31日

Adversarial Learning for Chinese NER from Crowd Annotations

Arxiv

15+阅读 · 2018年1月16日

大家都在搜

大型语言模型

CMU博士论文

国防科技创新

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员