会员服务 ·

0

发现果体：鉴黄AI职业技能大赛，谷歌微软亚马逊谁最强？| 附代码

2018 年 8 月 13 日 量子位

开车栗发自凹非寺
量子位出品 | 公众号 QbitAI

虽说，大家都喜欢看，会被举报的那种图片。

但网络，特别是社交网络，还是需要净化环境。毕竟，没有分级制度，纯洁的花朵可能受到污染。

鉴黄师，令人艳羡的职业，就这样诞生了。牺牲了自己，成全千万家 (写反了) 。

△ 手动@唐马儒

当然，能做鉴黄师的不只有人类：计算机不需要发工资，阅片无数也不会产生生理反应影响工作。

于是，许多科技巨头开发了自己的AI鉴黄师，自动过滤一些NSFW的内容。

△ Not Safe For Work

有些内容，如果AI不是很确定要不要阻挡，再交由人类做最终的裁决。

这样一来，鉴黄师的身心得到了保护，工作效率也比从前高出许多。

职业技能大赛

谷歌、微软、亚马逊，以及Clarifai这样的初创公司，都提供了图像审查API，把成人向元素检测出来——

1号选手：Google Cloud Vision

2号选手：Microsoft Image Moderation

3号选手：AWS Rekognition (亚马逊)

4号选手：Clarifai Nudity

Dataturks团队，想要比一比这几家AI的鉴黄能力，也看看人类的工作能从多大程度上被取代。

比赛用的是开源数据集YACVID，包含180幅图像，其中90幅被人类鉴黄师标注为“果体 (Nude) ”，另外90幅为“非果体 (Not Nude) ”，是为标准答案。

非果体举栗：

果体举栗 (此处不便，请使用传送门) ：

https://s3.amazonaws.com/com.dataturks.imagemoderation/nonnude26.jpg
(需把nonnude26，改成nude01、43、57、74等)

每位选手要辨别全部180幅图，到底果不果。

比赛成绩由几部分组成——

真正 (True Positive，TP) ：正确识别非果图的次数；

假正 (False Positive，FP) ：将果图识别成非果图的次数；

假负 (False Negative，FN) ：将非果图识别为果图的次数；

真负 (True Negative，TN) ：正确识别果图的次数。

这个世界很危险，真正越多越好，假正越少越好。

另外，如果假负太多，表示系统的功能比较弱小，人类的工作负担就比较重。

谷歌是第一

看一下结果吧。

总体来讲，谷歌表现最为出色，真正和真负的都是最高的。

相比之下，微软和亚马逊AWS的假负略高，容易谎报险情。

而Clarifai，虽然假正 (0) 和假负 (2) 都比较低，但真正和真负也都在80以下。也就是说，它不易错报军情，但有许多情况要交给人类判断，因为AI不确定。

但总体来说，四位选手的表现都不差，所以测试团队决定让它们联手。

结果是，谷歌与亚马逊AWS，合作最为顺滑。不过，依然有10%的安全图像，需要得到人类的确认。

也不知道，人类鉴黄师会不会感念AI的帮助。

大家容易错在哪？

Google Cloud Vision

被谷歌鉴黄师标记成“可能 (Possible) ”，“好像 (Likely) ”，“非常像 (Very Likely) ”的图像，就是去往危险分类的图像。

这些是谷歌报告危险，但人类认为安全的栗子：

标记成”不像 (Unlikely) “，以及“非常不像 (Very Unlikely) ”的，便是AI判断的安全图像了。

比如，谷歌说nude61 (可从上文传送门前往观察) 是安全的，但人类不同意。

AWS Rekognition

亚马逊审查员，有“显然是果图 (Explicit Nudity) ”，“果图 (Nudity)”，“可能是果图 (Suggestive)”这几种危险标记，被划到NSFW里去。

这样一来，穿得客气一点的小姐姐，就很难过审了。

看来，像“Possible”和“Suggestive”这样的谦虚标记，容易比人类的过滤得更严格。

这样，鉴黄师们就算有了AI的协作，也依然能审到一些比较不错的图片，不会失去工作的动力吧。

温柔的畅想

180张图片，AI秒速欣赏完毕。单身30年也难企及的速度。

听上去不错，就是不知道，未来的AI能不能解锁人类的快感。

有兴趣的各位，可以前往以下地址，获取数据集和代码：
https://dataturks.com/blog/image-moderation-api-comparison.php

— 完 —

加入社群

量子位AI社群19群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

1

相关内容

Clarifai

Clarifai，一家位于纽约的初创公司，为开发者提供给照片标记元数据的能力，以便公司得知照片中的对象类型。

【2020新书】从Excel中学习数据挖掘，223页pdf

【2020新书】从Excel中学习数据挖掘，223页pdf

专知会员服务

93+阅读 · 2020年6月28日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

斯坦福2020硬课《分布式算法与优化》

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【资源】100+本免费数据科学书

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

专知会员服务

115+阅读 · 2020年2月24日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

3 行代码 5 秒抠图的 AI 神器，根本无需 PS

3 行代码 5 秒抠图的 AI 神器，根本无需 PS

大数据技术

20+阅读 · 2019年7月24日

刷新ImageNet纪录，GAN不只会造假！DeepMind用它做图像分类，秒杀职业分类AI

刷新ImageNet纪录，GAN不只会造假！DeepMind用它做图像分类，秒杀职业分类AI

量子位

8+阅读 · 2019年7月9日

开源鉴黄AI新鲜出炉：代码+预训练模型，还附手把手入门教程

开源鉴黄AI新鲜出炉：代码+预训练模型，还附手把手入门教程

量子位

10+阅读 · 2019年3月31日

用英伟达StyleGAN生成老婆吧，他生成了一百多只明日香 | 开源代码

用英伟达StyleGAN生成老婆吧，他生成了一百多只明日香 | 开源代码

量子位

7+阅读 · 2019年2月13日

谷歌的这只AI学会了“打小抄”，还骗过了它的创造者

谷歌的这只AI学会了“打小抄”，还骗过了它的创造者

大数据文摘

5+阅读 · 2019年1月2日

还在PS里手动描边？AI自动抠图只需5秒

还在PS里手动描边？AI自动抠图只需5秒

机器之心

12+阅读 · 2018年12月19日

开眼|鉴黄人工智能取代人工鉴黄师？这些图居然能搞错

开眼|鉴黄人工智能取代人工鉴黄师？这些图居然能搞错

机器人大讲堂

4+阅读 · 2018年8月19日

谷歌放大招！数据增强实现自动化

谷歌放大招！数据增强实现自动化

新智元

8+阅读 · 2018年6月4日

新突破！AI 算法可准确诊断儿童失明病因，准确率达 91%

新突破！AI 算法可准确诊断儿童失明病因，准确率达 91%

雷锋网

6+阅读 · 2018年5月8日

世界最大黄网要用 AI “鉴黄”，还号称要让鉴黄师下岗

世界最大黄网要用 AI “鉴黄”，还号称要让鉴黄师下岗

AI掘金志

4+阅读 · 2017年10月16日

A Sketch-Based System for Semantic Parsing

A Sketch-Based System for Semantic Parsing

Arxiv

4+阅读 · 2019年9月12日

Investigating the Successes and Failures of BERT for Passage Re-Ranking

Investigating the Successes and Failures of BERT for Passage Re-Ranking

Arxiv

3+阅读 · 2019年5月5日

Factor Graph Attention

Factor Graph Attention

Arxiv

6+阅读 · 2019年4月11日

Integrating Semantic Knowledge to Tackle Zero-shot Text Classification

Arxiv

6+阅读 · 2019年3月29日

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

Arxiv

4+阅读 · 2018年8月24日

Deep Semantic Hashing with Generative Adversarial Networks

Arxiv

5+阅读 · 2018年4月23日

DetNet: A Backbone network for Object Detection

Arxiv

5+阅读 · 2018年4月17日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

Arxiv

6+阅读 · 2018年3月8日

Zero-Shot Sketch-Image Hashing

Arxiv

5+阅读 · 2018年3月6日

VIP会员

相关主题

亚马逊 (Amazon.com)

相关VIP内容

【2020新书】从Excel中学习数据挖掘，223页pdf

【2020新书】从Excel中学习数据挖掘，223页pdf

专知会员服务

93+阅读 · 2020年6月28日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

斯坦福2020硬课《分布式算法与优化》

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【资源】100+本免费数据科学书

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

专知会员服务

115+阅读 · 2020年2月24日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

人工智能时代背景下的未来海战

接触战中的无人机优势：美军旅级部队面临的小型无人机系统挑战与调整

相关资讯

3 行代码 5 秒抠图的 AI 神器，根本无需 PS

3 行代码 5 秒抠图的 AI 神器，根本无需 PS

大数据技术

20+阅读 · 2019年7月24日

刷新ImageNet纪录，GAN不只会造假！DeepMind用它做图像分类，秒杀职业分类AI

刷新ImageNet纪录，GAN不只会造假！DeepMind用它做图像分类，秒杀职业分类AI

量子位

8+阅读 · 2019年7月9日

开源鉴黄AI新鲜出炉：代码+预训练模型，还附手把手入门教程

开源鉴黄AI新鲜出炉：代码+预训练模型，还附手把手入门教程

量子位

10+阅读 · 2019年3月31日

用英伟达StyleGAN生成老婆吧，他生成了一百多只明日香 | 开源代码

用英伟达StyleGAN生成老婆吧，他生成了一百多只明日香 | 开源代码

量子位

7+阅读 · 2019年2月13日

谷歌的这只AI学会了“打小抄”，还骗过了它的创造者

谷歌的这只AI学会了“打小抄”，还骗过了它的创造者

大数据文摘

5+阅读 · 2019年1月2日

还在PS里手动描边？AI自动抠图只需5秒

还在PS里手动描边？AI自动抠图只需5秒

机器之心

12+阅读 · 2018年12月19日

开眼|鉴黄人工智能取代人工鉴黄师？这些图居然能搞错

开眼|鉴黄人工智能取代人工鉴黄师？这些图居然能搞错

机器人大讲堂

4+阅读 · 2018年8月19日

谷歌放大招！数据增强实现自动化

谷歌放大招！数据增强实现自动化

新智元

8+阅读 · 2018年6月4日

新突破！AI 算法可准确诊断儿童失明病因，准确率达 91%

新突破！AI 算法可准确诊断儿童失明病因，准确率达 91%

雷锋网

6+阅读 · 2018年5月8日

世界最大黄网要用 AI “鉴黄”，还号称要让鉴黄师下岗

世界最大黄网要用 AI “鉴黄”，还号称要让鉴黄师下岗

AI掘金志

4+阅读 · 2017年10月16日

相关论文

A Sketch-Based System for Semantic Parsing

A Sketch-Based System for Semantic Parsing

Arxiv

4+阅读 · 2019年9月12日

Investigating the Successes and Failures of BERT for Passage Re-Ranking

Investigating the Successes and Failures of BERT for Passage Re-Ranking

Arxiv

3+阅读 · 2019年5月5日

Factor Graph Attention

Factor Graph Attention

Arxiv

6+阅读 · 2019年4月11日

Integrating Semantic Knowledge to Tackle Zero-shot Text Classification

Arxiv

6+阅读 · 2019年3月29日

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

Arxiv

4+阅读 · 2018年8月24日

Deep Semantic Hashing with Generative Adversarial Networks

Arxiv

5+阅读 · 2018年4月23日

DetNet: A Backbone network for Object Detection

Arxiv

5+阅读 · 2018年4月17日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

Arxiv

6+阅读 · 2018年3月8日

Zero-Shot Sketch-Image Hashing

Arxiv

5+阅读 · 2018年3月6日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员