158万张图像的鉴黄数据集 - 专知

会员服务 ·

1

158万张图像的鉴黄数据集

2019 年 2 月 14 日 机器学习算法与Python学习

机器之心报道

如果你想训练一个内容审核系统过滤不合适的信息，或用 GAN 实现一些大胆的想法，那么数据集是必不可少的。但限制级图像很难收集，也很少会开源。在这个项目中，作者构建了一个大型高质量图像鉴黄数据集，它有超过 158 万张图像，共分为 159 个大类别，且每一个类别还有若干子类别。另外，今天发这篇文章和情人节完全无关，和你是不是单身狗完全无关，一切是为了探索机器学习的前沿……(笑眯眯手动摸狗头）。

项目地址：https://github.com/EBazarov/nsfw_data_source_urls

在这篇文章中，我们将介绍一个新的鉴黄图像开源项目，它的 158 万数据量足够训练一个大型分类模型或生成模型，而且充足的类别也提升了数据的质量。总体而言，我们会发现该项目的图像分类比较准确，至少我们采样的一些图像都属于 NSFW 和对应的类别。

整个项目和 nsfw_data_scrapper 项目一样提供对应的图像超链，不同类别及子类别都有对应的 TXT 文件，所有超链都储存在 TXT 文本中。如下所示为简单的数据示例，因为本文这个数据集尺度有点大，我们以 nsfw_data_scrapper 数据集为例：

数据集统计信息

raw_data 文件夹中可以找到不同类别及对应的 TXT 文本，以下是关于该数据集的一些统计信息：

159 个不同的类别
158.9331 万个 URL
下载并清洗后大约有 500GB，或者说 130 万张 NSFW 图像。

如下所示为不同类别与对应图像数，下图只截取了少量类别作为示例：

每一个类别还会有一些小类，例如在紧身衣裤（appearance_clothing_tight-clothing）的类别下，还会细分一些子类别：

这些子类别并没有统计信息，不过在读取图像并构建标注的过程中，我们可以考虑这些子类别，也可以忽略它们。

注意事项

1. 下载之后最好清洗一下数据集，如：

删除重复图像
移除被禁止/删除的图片（它们会产生一个特殊的图像占位符）
找出损坏的数据并将其移除

2. 注意噪声，一些资源提供了 NSFW 和中性图像的高度混合的数据。

3. 该库可以帮助检索 NSFW 图像，整个项目没有针对中性图像内容的专用 URL。

推荐阅读

不会多机并行爬取数据的看这里！

抖音爬虫 | 手把手教你下载指定的Douyin视频

资源 | 正则表达式的功法大全

春节假期十大AI事件，看看你都错过了啥

GitHub不为人知的小秘密…让你的工作更高效

毕业论文无从下手？一文帮你理清头绪

Python可视化神器——pyecharts的超详细使用指南！

登录查看更多

15

相关内容

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【资源】100+本免费数据科学书

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

姿势服装随心换-CVPR2019

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【新书】实用的机器学习和图像处理，177页pdf，用于面部识别、目标检测和使用Python的模式识别

【新书】实用的机器学习和图像处理，177页pdf，用于面部识别、目标检测和使用Python的模式识别

专知会员服务

104+阅读 · 2020年1月18日

图像内容自动描述技术综述

图像内容自动描述技术综述

专知会员服务

88+阅读 · 2019年11月17日

爬网页、洗数据、创建海量数据集一条龙！英伟达工程师小姐姐开源工具库

爬网页、洗数据、创建海量数据集一条龙！英伟达工程师小姐姐开源工具库

量子位

9+阅读 · 2019年3月2日

情人节：一本正经地为单身狗推荐这个158万张图像的鉴黄数据集

情人节：一本正经地为单身狗推荐这个158万张图像的鉴黄数据集

机器之心

8+阅读 · 2019年2月14日

实用：用深度学习方法修复医学图像数据集

实用：用深度学习方法修复医学图像数据集

新智元

5+阅读 · 2018年5月4日

900万张标注图像，谷歌发布Open Images最新V3版

900万张标注图像，谷歌发布Open Images最新V3版

AI100

3+阅读 · 2017年11月21日

一文带你入门视频目标分割（附数据集）

一文带你入门视频目标分割（附数据集）

THU数据派

19+阅读 · 2017年10月10日

A Sketch-Based System for Semantic Parsing

A Sketch-Based System for Semantic Parsing

Arxiv

4+阅读 · 2019年9月12日

Revisiting CycleGAN for semi-supervised segmentation

Revisiting CycleGAN for semi-supervised segmentation

Arxiv

3+阅读 · 2019年8月30日

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

Zero-Shot Sketch-Image Hashing

Arxiv

5+阅读 · 2018年3月6日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

VIP会员

相关主题

相关VIP内容

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【资源】100+本免费数据科学书

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

姿势服装随心换-CVPR2019

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【新书】实用的机器学习和图像处理，177页pdf，用于面部识别、目标检测和使用Python的模式识别

【新书】实用的机器学习和图像处理，177页pdf，用于面部识别、目标检测和使用Python的模式识别

专知会员服务

104+阅读 · 2020年1月18日

图像内容自动描述技术综述

图像内容自动描述技术综述

专知会员服务

88+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

《北约认知战概念报告》

【MIT博士论文】高效的视觉合成生成模型

美海军放弃星座级转而采用国家安全巡逻舰设计

相关资讯

爬网页、洗数据、创建海量数据集一条龙！英伟达工程师小姐姐开源工具库

爬网页、洗数据、创建海量数据集一条龙！英伟达工程师小姐姐开源工具库

量子位

9+阅读 · 2019年3月2日

情人节：一本正经地为单身狗推荐这个158万张图像的鉴黄数据集

情人节：一本正经地为单身狗推荐这个158万张图像的鉴黄数据集

机器之心

8+阅读 · 2019年2月14日

实用：用深度学习方法修复医学图像数据集

实用：用深度学习方法修复医学图像数据集

新智元

5+阅读 · 2018年5月4日

900万张标注图像，谷歌发布Open Images最新V3版

900万张标注图像，谷歌发布Open Images最新V3版

AI100

3+阅读 · 2017年11月21日

一文带你入门视频目标分割（附数据集）

一文带你入门视频目标分割（附数据集）

THU数据派

19+阅读 · 2017年10月10日

相关论文

A Sketch-Based System for Semantic Parsing

A Sketch-Based System for Semantic Parsing

Arxiv

4+阅读 · 2019年9月12日

Revisiting CycleGAN for semi-supervised segmentation

Revisiting CycleGAN for semi-supervised segmentation

Arxiv

3+阅读 · 2019年8月30日

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

Zero-Shot Sketch-Image Hashing

Arxiv

5+阅读 · 2018年3月6日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

大家都在搜

蓝牙安全攻防

大型语言模型

MIT博士论文

隐秘的头发

从传统方法到深度学习—— bilateral filter 到 HDRNet的演进

微信扫码咨询专知VIP会员