Web 爬虫现已合法?

2020 年 2 月 3 日 CSDN

技术无罪?江湖传言,互联网上50%以上的流量都是由爬虫创造的,很多人都表示:无爬虫就无互联网的繁荣。也正因为此,网上各种爬虫教程风靡不绝,惹各路大神小白观之参与之。但是,无节制的背后往往隐藏着风险,类似“只因写了一段爬虫,公司200多人被抓!”、“程序员爬虫竟构成犯罪?”等报道也时有发生。关于爬虫合法性的讨论,CSDN也在此前的《爬虫到底违法吗?这位爬虫工程师给出了答案》、《不要在爬虫犯罪的边缘疯狂试探!》等文章中进行了探讨——但是,关于爬虫的争论一直甚嚣尘上。

近日,美国法院驳回 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉一事件,似乎又为网络爬虫的自由添砖加了瓦。决议表明:任何可公开获得且未经版权保护的数据都可供抓取!可以说,这是数据隐私和数据监管时代的历史性时刻。那么,作为开发者的你,如何看到这一事件呢?关于爬虫的风险性又该怎么定论?

作者 | Tom Waterman
整理 | 弯月,责编 | 郭芮
出品 | CSDN(ID:CSDNnews)

以下为译文:

2019年末,美国上诉法院驳回了 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉。
这项决议是数据隐私和数据监管时代的历史性时刻。这项决议表明,任何可公开获得且未经版权保护的数据都可供网络爬虫自由抓取。

但是抓取数据的商业用途仍然有限

然而,这项决议并没有授予 HiQ 或其他网络爬虫将抓取获得的数据用于商业目的的自由。
例如,网络爬虫可以在 YouTube 上搜索视频标题,但由于这些视频已获得版权,因此不可以将 YouTube 视频转发到自己的网站上。
一般来说,无论你以何种方式获取数据,数据(包括视频或音乐之类的媒体文件数据)的版权依然有效。

某些形式的网页爬虫仍然是非法的

这项决议也没有赋予网络爬虫自由地从需要身份验证的站点获取数据的权利。
例如,根据规定网络爬虫不可以登录到 Facebook 并下载用户的数据。
该规则不包括那些要求用户在认证之前必须同意使用条款的网站,因为通常这些服务条款都会禁止诸如自动收集数据之类的活动。
但是,由于公开站点无法要求用户在访问数据之前同意任何服务条款,因此用户可以自由使用网络爬虫程序从站点收集的数据。

各个网站仍然可以使用技术来限制网络爬虫

尽管如今各个公司不太可能通过法律途径应对网络爬虫程序,但他们仍然可以通过其他方式限制网络爬虫。
例如,各个网站可以使用“限速”等技术来防止爬虫程序一次下载太多网页。此外,各个网站还可以使用 CAPTCHA 等技术来测试是用户还是网络爬虫正在请求该页面。
这些技术通常用于防止恶意机器人导致网站超载,引起网站崩溃。但是,这些技术也可以广泛用于限制网络爬虫的自动抓取。

LinkedIn可能会进一步上诉

尽管美国上诉法院驳回了LinkedIn的请求,但他们可能还有最后一步棋:向美国最高法院提出上诉。
美国最高法院有权推翻上诉法院的判决,而且还可以撤销网络爬虫公开使用非版权数据的合法化。但是,并非所有上诉至最高法院的决定都能得到实际的审查。
但是,我们仍然可以认为最高法院很可能会审查本案的裁决。毕竟数据政策和相关的隐私问题是相对较新的法律,而且会对 LinkedIn 等公司产生重大的商业影响。
原文:https://towardsdatascience.com/web-scraping-is-now-legal-6bf0e5730a78
作者:Tom Waterman,数据科学家@Facebook。
推荐阅读 
科技驰援背后:技术没有假期!
假期延长,抢票软件到底还行不?
火神山医院完工,2月3日收治病人!“云监工”请放心!
☞阿里腾讯华为在行动!程序员远程办公究竟用哪个视频会议好?
疫情肆虐下,程序员们都在哪里?
延迟上班别发愁,远程办公抗疫情!
你点的每一个在看,我认真当成了喜欢
登录查看更多
0

相关内容

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
194+阅读 · 2020年6月29日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
76+阅读 · 2020年4月24日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
算法与数据结构Python,369页pdf
专知会员服务
162+阅读 · 2020年3月4日
渗透某德棋牌游戏
黑白之道
12+阅读 · 2019年5月17日
GitHub 热门:各大网站的 Python 爬虫登录汇总
机器学习算法与Python学习
9+阅读 · 2019年3月20日
基于Web页面验证码机制漏洞的检测
FreeBuf
7+阅读 · 2019年3月15日
抖音爬虫
专知
3+阅读 · 2019年2月11日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
Python为啥这么牛?
Python程序员
3+阅读 · 2018年3月30日
33款可用来抓数据的开源爬虫软件工具 (推荐收藏)
数据科学浅谈
7+阅读 · 2017年7月29日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
Arxiv
35+阅读 · 2019年11月7日
Arxiv
8+阅读 · 2019年3月28日
Semantics of Data Mining Services in Cloud Computing
Arxiv
4+阅读 · 2018年10月5日
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
4+阅读 · 2018年4月29日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
194+阅读 · 2020年6月29日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
76+阅读 · 2020年4月24日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
算法与数据结构Python,369页pdf
专知会员服务
162+阅读 · 2020年3月4日
相关资讯
渗透某德棋牌游戏
黑白之道
12+阅读 · 2019年5月17日
GitHub 热门:各大网站的 Python 爬虫登录汇总
机器学习算法与Python学习
9+阅读 · 2019年3月20日
基于Web页面验证码机制漏洞的检测
FreeBuf
7+阅读 · 2019年3月15日
抖音爬虫
专知
3+阅读 · 2019年2月11日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
Python为啥这么牛?
Python程序员
3+阅读 · 2018年3月30日
33款可用来抓数据的开源爬虫软件工具 (推荐收藏)
数据科学浅谈
7+阅读 · 2017年7月29日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
相关论文
Arxiv
35+阅读 · 2019年11月7日
Arxiv
8+阅读 · 2019年3月28日
Semantics of Data Mining Services in Cloud Computing
Arxiv
4+阅读 · 2018年10月5日
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
4+阅读 · 2018年4月29日
Top
微信扫码咨询专知VIP会员