成人网站PornHub爬虫分享(一天可爬取500万以上的视频) - 专知

会员服务 ·

0

成人网站PornHub爬虫分享(一天可爬取500万以上的视频)

2018 年 5 月 23 日 互联网架构师

相关阅读：

阿里P7/P8学习路线图——技术封神之路

为什么百度留不住人

宁愿月薪1万招新人，却不愿给月薪5千的老员工涨薪

PornHubBot

源代码地址：https://github.com/xiyouMc/WebHubBot

PornHubBot项目主要是爬取全球最大成人网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接
项目爬的是PornHub.com，结构简单，速度飞快
爬取PornHub视频的速度可以达到500万/天以上。具体视个人网络情况,因为我是家庭网络，所以相对慢一点。
10个线程同时请求，可达到如上速度。若个人网络环境更好，可启动更多线程来请求，具体配置方法见 [启动前配置]

环境、架构

开发语言: Python2.7

开发环境: MacOS系统、4G内存

数据库: MongoDB

主要使用 scrapy 爬虫框架
从Cookie池和UA池中随机抽取一个加入到Spider
start_requests 根据 PorbHub 的分类，启动了5个Request，同时对五个分类进行爬取。
并支持分页爬取数据，并加入到待爬队列。

使用说明

启动前配置

安装MongoDB,并启动，不需要配置
安装Scrapy
安装Python的依赖模块：pymongo、json、requests
根据自己需要修改 Scrapy 中关于间隔时间、启动Requests线程数等得配置

启动

python PornHub/quickstart.py

运行截图

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

video_title:视频的标题,并作为唯一标识.link_url:视频调转到PornHub的链接 image_url:视频的封面链接 video_duration:视频的时长，以 s 为单位 quality_480p: 视频480p的 mp4 下载地址

链接：http://www.techug.com/post/pornhubbot.html

看完本文有收获？请转发分享给更多人

欢迎关注“互联网架构师”，我们分享最有价值的互联网技术干货文章，助力您成为有思想的全栈架构师，我们只聊互联网、只聊架构，不聊其他！打造最有价值的架构师圈子和社区。

本公众号覆盖中国主要首席架构师、高级架构师、CTO、技术总监、技术负责人等人群。分享最有价值的架构思想和内容。打造中国互联网圈最有价值的架构师圈子。

长按下方的二维码可以快速关注我们
如想加群讨论学习，请点击右下角的“加群学习”菜单入群

登录查看更多

16

相关内容

MP4

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

【阿里技术干货】知识结构化在阿里小蜜中的应用

【阿里技术干货】知识结构化在阿里小蜜中的应用

专知会员服务

98+阅读 · 2019年12月14日

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

专知会员服务

38+阅读 · 2019年10月24日

GitHub 热门：各大网站的 Python 爬虫登录汇总

GitHub 热门：各大网站的 Python 爬虫登录汇总

机器学习算法与Python学习

9+阅读 · 2019年3月20日

抖音爬虫

专知

5+阅读 · 2019年2月11日

我是一个爬虫

我是一个爬虫

码农翻身

12+阅读 · 2018年6月4日

Python3爬虫之入门和正则表达式

Python3爬虫之入门和正则表达式

全球人工智能

7+阅读 · 2017年10月9日

【宁波站】网络爬虫与文本挖掘

【宁波站】网络爬虫与文本挖掘

数萃大数据

5+阅读 · 2017年7月19日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

FML: Face Model Learning from Videos

Arxiv

5+阅读 · 2018年12月18日

Occupancy Networks: Learning 3D Reconstruction in Function Space

Occupancy Networks: Learning 3D Reconstruction in Function Space

Arxiv

10+阅读 · 2018年12月10日

Adversarial Binary Coding for Efficient Person Re-identification

Arxiv

4+阅读 · 2018年4月6日

Learning Intrinsic Sparse Structures within Long Short-Term Memory

Arxiv

4+阅读 · 2018年1月30日

VIP会员

相关主题

相关VIP内容

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

【阿里技术干货】知识结构化在阿里小蜜中的应用

【阿里技术干货】知识结构化在阿里小蜜中的应用

专知会员服务

98+阅读 · 2019年12月14日

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

专知会员服务

38+阅读 · 2019年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

《北约认知战概念报告》

【MIT博士论文】高效的视觉合成生成模型

美海军放弃星座级转而采用国家安全巡逻舰设计

相关资讯

GitHub 热门：各大网站的 Python 爬虫登录汇总

GitHub 热门：各大网站的 Python 爬虫登录汇总

机器学习算法与Python学习

9+阅读 · 2019年3月20日

抖音爬虫

专知

5+阅读 · 2019年2月11日

我是一个爬虫

我是一个爬虫

码农翻身

12+阅读 · 2018年6月4日

Python3爬虫之入门和正则表达式

Python3爬虫之入门和正则表达式

全球人工智能

7+阅读 · 2017年10月9日

【宁波站】网络爬虫与文本挖掘

【宁波站】网络爬虫与文本挖掘

数萃大数据

5+阅读 · 2017年7月19日

相关论文

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

FML: Face Model Learning from Videos

Arxiv

5+阅读 · 2018年12月18日

Occupancy Networks: Learning 3D Reconstruction in Function Space

Occupancy Networks: Learning 3D Reconstruction in Function Space

Arxiv

10+阅读 · 2018年12月10日

Adversarial Binary Coding for Efficient Person Re-identification

Arxiv

4+阅读 · 2018年4月6日

Learning Intrinsic Sparse Structures within Long Short-Term Memory

Arxiv

4+阅读 · 2018年1月30日

大家都在搜

大型语言模型

蓝牙安全攻防

水下航行器

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员