150多万张“不可描述”照片数据集新鲜出炉,这次一定不要在办公室打开

2019 年 2 月 15 日 量子位
三井 发自 凹非寺
量子位 出品 | 公众号 QbitAI

真是青出于蓝而胜于蓝。

距离上次开源20万“不可描述”图片数据集30天之后,又有人在GitHub上放出“大招”:

开源了内含158.9万张不可描述图片的数据集。

这次出手的,是一位名叫Evgeny Bazarov数据科学家,目前在一家内容优化公司Besedo工作。

他说,自己做这个数据集,是受到了nsfw_data_scrapper(20万数据集)的启发。

与先前的数据集不同,这个数据集更加“纯粹”,并按照场景、外观等因素分成了159个类别,比如:

“appearance_clothing_dresses”、“locations_nature_beach”、“amateur_self-shots”等等。

而且,在这159个类别之下,再次进行了分类。比如在“appearance_clothing_dresses”类别下,还有5个类别:

至于这个数据集的用途,就仁者见仁智者见智了。

Bazarov表示,它可以用来鉴别“NSFW”图像。毕竟这个数据中基本上都是“不可描述”的图像,分类又细化。

如果你有想法,倒是可以上手试一试。

比如,上次20万数据集放出之后,就有人做成了鉴黄模型。

项目地址:
https://github.com/rockyzhengwu/nsfw

想要下载数据集,得有足够大的硬盘。整个数据集下载清洗后大概有500G大小。

在GitHub上,给出的是图片的URL。

具体的下载方法,可以参考nsfw_data_scrapper中的脚本:

找到scripts目录下的“2_download_from_urls.sh”……

但是,切记,一定不要在办公室打开。

传送门

数据集下载脚本地址:
https://github.com/alexkimxyz/nsfw_data_scrapper

158万数据集地址:
https://github.com/EBazarov/nsfw_data_source_urls

加入社群

量子位现开放「AI+行业」社群,面向AI行业相关从业者,技术、产品等人员,根据所在行业可选择相应行业社群,在量子位公众号(QbitAI)对话界面回复关键词“行业群”,获取入群方式。行业群会有审核,敬请谅解。


此外,量子位AI社群正在招募,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式。

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
110+阅读 · 2020年6月27日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
28+阅读 · 2020年1月16日
人工智能学习笔记,247页pdf
专知会员服务
186+阅读 · 2019年12月14日
谷歌机器学习速成课程中文版pdf
专知会员服务
146+阅读 · 2019年12月4日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
谷歌开源语义图像分割模型DeepLab-v3+ | 附代码
Tile:一个崭新出炉的机器学习语言
量子位
5+阅读 · 2017年11月11日
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2017年12月2日
VIP会员
Top
微信扫码咨询专知VIP会员