真是青出于蓝而胜于蓝。
距离上次开源20万“不可描述”图片数据集30天之后,又有人在GitHub上放出“大招”:
开源了内含158.9万张不可描述图片的数据集。
这次出手的,是一位名叫Evgeny Bazarov数据科学家,目前在一家内容优化公司Besedo工作。
他说,自己做这个数据集,是受到了nsfw_data_scrapper(20万数据集)的启发。
与先前的数据集不同,这个数据集更加“纯粹”,并按照场景、外观等因素分成了159个类别,比如:
“appearance_clothing_dresses”、“locations_nature_beach”、“amateur_self-shots”等等。
而且,在这159个类别之下,再次进行了分类。比如在“appearance_clothing_dresses”类别下,还有5个类别:
至于这个数据集的用途,就仁者见仁智者见智了。
Bazarov表示,它可以用来鉴别“NSFW”图像。毕竟这个数据中基本上都是“不可描述”的图像,分类又细化。
如果你有想法,倒是可以上手试一试。
比如,上次20万数据集放出之后,就有人做成了鉴黄模型。
项目地址:
https://github.com/rockyzhengwu/nsfw
想要下载数据集,得有足够大的硬盘。整个数据集下载清洗后大概有500G大小。
在GitHub上,给出的是图片的URL。
具体的下载方法,可以参考nsfw_data_scrapper中的脚本:
找到scripts目录下的“2_download_from_urls.sh”……
但是,切记,一定不要在办公室打开。
数据集下载脚本地址:
https://github.com/alexkimxyz/nsfw_data_scrapper
158万数据集地址:
https://github.com/EBazarov/nsfw_data_source_urls
— 完 —
加入社群
量子位现开放「AI+行业」社群,面向AI行业相关从业者,技术、产品等人员,根据所在行业可选择相应行业社群,在量子位公众号(QbitAI)对话界面回复关键词“行业群”,获取入群方式。行业群会有审核,敬请谅解。
此外,量子位AI社群正在招募,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式。
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「好看」吧 !