爬网页、洗数据、创建海量数据集一条龙!英伟达工程师小姐姐开源工具库

2019 年 3 月 2 日 量子位
乾明 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

想做研究,却没有足够的数据,着实让人抓狂、苦恼。

现在,你可以自己动手创建数据集了。

英伟达工程师小姐姐Chip Huyen,在GitHub上开源了一个名为“lazynlp”的工具库。

爬网页、清洗数据、创建数据集都可以搞定。

她说,使用这个库,你应该能创建一个比大于40G的文本数据集,比OpenAI训练GPT-2时使用的还要大。

开源仅一天,项目在GitHub上就获得了300多星,Twitter上获得上千次点赞。fast.ai创始人Jeremy Howard等人也转发推荐。

而且,用这个工具库创建数据集的过程,也并不麻烦。

五步走,一条龙

第一步,获取你想抓取的网页的网址。

小姐姐提供了三个你可以直接拿走使用的网址集合,分别来自Reddit、古腾堡计划(电子书)、维基百科。

当然,你也可以下载自己的。

第二步,删除重复的网址。

网址有很多,重复也在所难免。

这里提供了两种方法,来删除重复的网址。

第三步,下载网址内容。

这里提供了两种方法,一种可以并行下载多个文件,另一种可以单独下载网页内容。

如果网址数量比较大,可以将列表分成多个文件的,分别调用函数。

小姐姐说,自己能够并行40个脚本,下载起来也更容易一些。

第四步,清理网页。

这一步有3个方法可以选择,一是使用lazynlp/cleaner.py中的方法,二是直接调用命令行:

lazynlp.clean_page(page)

另外,也可以使用lazynlp.download_pages ( )函数,同时爬网页并清理。

第五步,删除重复网页。

网站下载好了,该清理的东西都清理了,接下来需要去重。

不然就会有一些文本重复出现,从而影响数据集的表现。

小姐姐提供了3个函数,可以帮你完成步骤。

做完这些,你就有自己的NLP数据集了,想干什么就可以放手去做了。

如果你有想法,请收好下面的传送门:

https://github.com/chiphuyen/lazynlp

一份小调查

大噶好,


为了了解大家感兴趣的话题,丰富我们的报道内容,带来更好的阅读体验,请大家帮我们填一份调查问卷鸭,扫码即可进入问卷页面。


笔芯。( ̄︶ ̄)➷➷➷

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



登录查看更多
9

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
173+阅读 · 2020年1月1日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
Python NLP 入门教程
大数据技术
19+阅读 · 2017年10月24日
Python 自然语言处理(NLP)工具库汇总
数据挖掘入门与实战
7+阅读 · 2017年9月25日
如何用Python从海量文本抽取主题?
AI研习社
7+阅读 · 2017年7月6日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
3+阅读 · 2018年4月3日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
173+阅读 · 2020年1月1日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
相关资讯
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
Python NLP 入门教程
大数据技术
19+阅读 · 2017年10月24日
Python 自然语言处理(NLP)工具库汇总
数据挖掘入门与实战
7+阅读 · 2017年9月25日
如何用Python从海量文本抽取主题?
AI研习社
7+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员